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Avant-propos 



On prononce Caml avec le « ca» de cafe et le « mel» de melba. 



aml est un langage de programmation de conception recente qui reussit a etre a 
la fois tres puissant et cependant simple a comprendre. Issu d'une longue reflexion 
sur les langages de programmation, Caml s'organise autour d'un petit nombre 
de notions de base, chacune facile a comprendre, et dont la combinaison se revele 
extremement feconde. La simplicity et la rigueur de Caml lui valent une popularite 
grandissante dans l'enseignement de l'informatique, en particulier comme premier lan- 
gage dans des cours d'initiation a la programmation. Son expressivite et sa puissance 
en font un langage de choix dans les laboratoires de recherche, oil il a ete utilise pour 
traiter des problemes parmi les plus ardus de l'informatique : demonstration assistee 
par ordinateur, analyses automatique de programmes, systemes de reecriture, compila- 
tion et metacompilation. En bref, Caml est un langage facile avec lequel on resout des 
problemes difficiles. 

Longtemps reserve a de grosses machines couteuses, le langage Caml est main- 
tenant disponible gratuitement sur toute une gamme de machines, du micro-ordinateur 
personnel (PC, Macintosh, . . . ) aux stations de travail les plus puissantes, ce qui le 
rend accessible a un vaste public, de l'amateur curieux au professionnel chevronne en 
passant par Petudiant informaticien. A ce vaste public, Caml apporte une nouvelle 
approche de la programmation, des plus fructueuses. L'investissement que vous ferez 
en apprenant Caml ne sera pas vain : vous constaterez que le langage vous ouvre des 
horizons nouveaux et qu'il est assez puissant pour que vous y exprimiez simplement des 
idees complexes. Ce qui se congoit bien s'enonce clairement et les programmes pour le 
dire vous viennent aisement en Caml. 

Ce livre se propose done de faire decouvrir Caml a tous ceux qui s'interessent a la 
programmation. Nous nous sommes efforces d'ecrire un livre accessible a tout « honnete 
homme», mais qui permette cependant de maitriser le langage et d'en saisir les beautes. 
Pour ce faire, nous avons combine une introduction progressive aux principaux traits du 
langage avec un veritable cours de programmation, illustre de tres nombreux exemples 
de programmes qui vous permettront de saisir comment on utilise Caml et de vous 
approprier petit a petit ce merveilleux outil. Les exemples vont jusqu'au developpement 
de programmes complets et d'une longueur respectable. Nous nous efforgons de justifier 
ces exemples, en les replagant dans leur contexte et en analysant la clarte et Pefhcacite 
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des solutions proposees. Cet ouvrage s'organise comme suit : 

• La partie I, « Programmer en Caml», introduit progressivement les traits du 
langage et les methodes essentielles de programmation en Caml. 

• La partie II, « Exemples complets », montre comment resoudre en Caml un certain 
nombre de problemes realistes de programmation. 

• La partie III, « Introspection », ebauche une implementation de Caml en Caml, 
expliquant ainsi le typage et revaluation de Caml. 

En complement de ce livre, les auteurs ont ecrit un second ouvrage, intitule Manuel 
de reference du langage Caml et publie par le meme editeur, contenant tout ce qui 
est necessaire au programmeur Caml experimente : un manuel de reference du langage 
Caml et un manuel d'utilisation du systeme Caml Light, le compilateur Caml que nous 
utilisons dans ce livre. Les deux livres sont concus pour etre utilises ensemble : le present 
ouvrage renvoie au manuel de reference pour une description exhaustive du langage et 
des explications detaillees de certains points techniques ; le manuel de reference suppose 
connues les notions introduites dans cet ouvrage. 

Tous les exemples de ce livre sont presentes dans le systeme Caml Light, un en- 
vironnement de programmation en Caml fonctionnant a la fois sur micro-ordinateurs 
(Macintosh et PC) et sur mini-ordinateurs et stations de travail Unix. II existe d'autres 
implementations du langage Caml, comme par exemple Objective Caml, qui ajoute 
a Caml Light des objets et des classes, ainsi qu'un systeme de modules plus puissant. 
L'essentiel de ce qui est dit dans ce livre porte sur le langage et s'applique done a toutes 
les implementations. Nous signalerons les quelques points specifiques au systeme Caml 
Light. Les lecteurs qui souhaitent consulter la documentation complete du systeme 
Caml Light peuvent se reporter au Manuel de reference du langage Caml, ou a notre 
site Web http://caml.inria.fr/. 

Le systeme Caml Light est distribue gratuitement et peut etre reproduit librement 
a des fins non commerciales. Pour ceux qui ont acces au reseau Internet, Caml Light 
est disponible sur le Web a l'adresse http://caml.inria.fr/. L'Institut National de 
Recherche en Informatique et en Automatique (INRIA) en assure egalement la distri- 
bution sur cederoms. Pour obtenir ce cederom, reportez-vous a Pencadre qui figure en 
page de copyright. 

Nous encourageons le lecteur a se procurer le systeme Caml Light et a Pinstaller 
sur sa machine, suivant les instructions donnees par exemple dans le chapitre 12 du 
Manuel de reference. II pourra ainsi essayer les exemples et experimenter par lui-meme, 
ce qui lui facilitera grandement la lecture de ce livre. 

Remerciements 

Nous tenons a remercier Christian Queinnec, Bernard Serpette et Gerard Huet qui 
se sont astreints a relire ce livre, Valerie Menissier-Morain qui a participe a l'illustration, 
Ian Jacobs pour son assistance typographique et Christian Rinderknecht qui a restaure 
les lettrines, une calligraphie anglaise du tantieme siecle. Le jeu de taquin de la sec- 
tion 11.4 est du a Frangois Rouaix; l'exemple de la section 11.2 est traduit d'un pro- 
gramme de John Ouster hout. 




Programmer en Caml 



Avert issement 



A premiere partie de ce livre est une introduction progressive au langage 
Caml. On n'y suppose pas de connaissances prealables autres que des no- 
tions elementaires de mathematiques du niveau du lycee. Les exemples de pro- 
grammes que nous vous presentons vont de l'exemple d'une ligne au vrai programme de 
plusieurs pages. Tous les exemples ont ete murement reflechis pour etre soit etonnants 
(voire amusants, pourquoi pas ?) soit reellement utiles ou representatifs des programmes 
qu'on ecrit vraiment. Si bien que nous esperons que tous pourront nous lire avec profit, 
du debutant en programmation, ignorant completement Caml et desirant s'en faire une 
idee, a l'etudiant confirme qui trouvera matiere a reflexion dans des programmes non 
triviaux. 

En s'adressant a un si vaste public, nous avons tente d'accelerer la lecture de tous : 
le debutant verra souvent des sections qu'on lui suggere de ne pas lire, car elles sont 
compliquees et pas indispensables pour la suite, tandis que le specialiste sera invite 
a sauter des chapitres entiers si ses connaissances le lui permettent. Par exemple, le 
prochain chapitre debute par un avertissement au specialiste : 

Si vous savez deja que « 2 + 2 ; ; » font « - : int = 4 », . . . , vous pouvez 
sauter ce chapitre. 

En revanche, le chapitre 3 contient une section «Effets et evaluation », qui s'ouvre par 
un avertissement au debutant : « Cette section peut etre sautee en premiere lecture. » 

La demarche que nous avons adoptee, c'est-a-dire l'apprentissage par des exemples 
interessants, nous a conduits a presenter les notions du langage par necessite: nous les 
expliquons lorsqu'elles interviennent et uniquement la. II se peut done que certaines 
notions, inutiles a nos programmes, ne soient pas passees en revue. Cela indique claire- 
ment qu'elles ne sont pas essentielles. Si Ton desire absolument une vue exhaustive des 
possibilites de Caml, on consultera le Manuel de reference du langage Caml auquel nous 
avons deja fait allusion. 
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Oil Von verifie que 2 et 2 font 4- 




I VOUS SAVEZ DEJA que « 2 + 2 ; ; » font « - : int = 4 » et que « let f 
= function x ->...» signifie « let f x = . . . », vous pouvez sauter ce 
chapitre. Sinon, il vous initiera a l'interaction avec Caml. 



1.1 Idees generates sur Caml 

Caml est un langage simple : il y a peu de constructions mais ces constructions 
sont les plus generates possibles. Caml utilise des notations intuitives ou consacrees par 
l'usage et souvent proches de celles des mathematiques. Par exemple, pour ajouter 1 
et 2, il suffit d'ecrire 1 + 2. Et les chaines de caracteres, c'est-a-dire les textes qui ne 
doivent pas etre interpretes par le langage, sont ecrites entre des guillemets ", notation 
classique en informatique. 

Bien que realise en France, Caml est anglophone : ses mots-cles sont en anglais. 
Ainsi, les valeurs de verite de la logique mathematique, le vrai et le faux, deviennent 
true et false en Caml. Ce n'est pas une reelle difficulte, car les mots-cles sont peu 
nombreux et nous les traduirons au fur et a mesure. 

Caml apporte une grande aide au programmeur, en s'efforgant de detecter le plus 
possible d'erreurs : le langage analyse les programmes qui lui sont soumis pour verifier 
leur coherence avant toute tentative de compilation ou d'execution. La principale anal- 
yse de coherence qu'il effectue se nomme le typage, mecanisme qui verifie que les 
operations qu'on utilise sont deja definies et que les valeurs qu'on leur applique ont un 
sens. Par exemple, l'addition n'est definie que pour les nombres, pas pour les valeurs de 
verite ni pour les chaines de caracteres. Done true + 1 sera rejete, de la meme facon 
que 1 + "oui". Vous constaterez vite qu'il est ainsi plus difficile d'ecrire en Caml des 
programmes manifestement faux : le langage les rejette automatiquement. Le corollaire 
est evidemment qu'il est plus facile d'ecrire des programmes corrects ! 

Si vous etes familier avec un langage algorithmique classique, comme Pascal par 
exemple, vous ne serez pas completement depayse par Caml : vous y retrouverez la 
notion de fonction et une notion similaire a celle de procedure ; d'autre part nous avons 
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deja vu que Caml est un langage type. Ces notions sont simplement generalisees et 
simplifiees : par exemple le typage est automatique et ne necessite pas d'annotations 
dans les programmes comme c'est le cas en Pascal. 

1.2 Dialoguer avec Caml 

Caml offre non seulement un compilateur traditionnel, qui transforme des fichiers de 
code source en code compile executable par la machine, mais aussi un systeme interactif 
qui vous permet de dialoguer directement avec Caml, sans passer par Pintermediaire 
d'un fichier. Dans ce mode, le langage s'utilise comme une «calculette» : vous tapez des 
phrases au clavier de l'ordinateur et Caml reagit en vous donnant immediatement les 
resultats de vos programmes. Nous utiliserons d'abord cette methode d'interaction di- 
recte car elle facilite l'apprentissage. Nous verrons plus tard Putilisation du compilateur 
independant, a partir du chapitre 10. Vous pouvez done entrer au terminal les exemples 
qui suivent, si vous avez deja installe le systeme Caml Light sur votre machine. 

Toutes les phrases soumises a Caml doivent etre munies d'une indication de fin de 
phrase, ce qu'on note en Caml par ; ; (deux points- virgules accoles). C'est justifie pour 
un systeme qui offre une version interactive, dans la mesure oil il est impossible de 
deviner quand l'utilisateur a termine sa phrase : par exemple apres 1 + 2, il est permis 
d'ecrire encore + 3 pour evaluer 1 + 2 + 3. D'autre part, une phrase peut s'etendre 
sur autant de lignes que necessaire ; la fin de la ligne ne se confond done pas avec la 
fin de la phrase. On devra done ecrire ; ; pour signaler la fin de la phrase. II faut bien 
entendu egalement appuyer sur la touche «retour chariot » (return en anglais) comme 
c'est traditionnel pour toute interaction avec un ordinateur. 

En reponse au signe d'invite de Caml (le caractere # que Caml imprime pour indi- 
quer qu'il attend que nous tapions quelque chose), demandons-lui d'effectuer un petit 
calcul : l'addition de 2 et de 2. Pour cela nous entrons simplement l'operation a effectuer, 
2 + 2, suivie de la marque de fin de phrase ; ; . 

#2+2;; 
- : int = 4 

Caml nous repond immediatement, en indiquant par un signe - que nous avons simple- 
ment calcule une valeur, que cette valeur est de type entier ( : int) et qu'elle vaut 4 (= 
4). Vous constatez que Caml a deduit tout seul le type du resultat du calcul. Pour un 
exemple si simple, ce n'est pas vraiment impressionnant, mais c'est un mecanisme ab- 
solument general : quelle que soit la complexity du programme que vous lui soumettrez, 
Caml en deduira le type sans aucune intervention de votre part. 

1.3 Les definitions 

Vous pouvez donner un nom a une valeur que vous calculez, pour ne pas perdre 
le resultat de votre calcul. La construction qui permet ainsi de nommer des valeurs 
s'appelle une definition. 
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Definitions globales 

De meme qu'en mathematiques on ecrit : «soit s la somme des nombres 1, 2 et 3», 
on ecrit en Caml (« soit » se traduit par let en anglais) : 

# let s = 1 + 2 + 3; ; 
s : int = 6 

Caml nous repond que nous avons defini un nouveau nom s, qui est de type entier (: 
int) et vaut 6 (= 6). Maintenant que le nom s est defini, il est utilisable dans d'autres 
calculs ; par exemple, pour definir le carre de s, on ecrirait : 

# let s2 = s * s; ; 
s2 : int = 36 

Les definitions sont des liaisons de noms a des valeurs. On peut considerer ces noms 
(qu'on appelle aussi identificateurs, ou encore variables) comme de simples abreviations 
pour la valeur qui leur est liee. En particulier, une definition n'est pas modifiable : un 
nom donne fait toujours reference a la meme valeur, celle qu'on a calculee lors de la 
definition du nom. Le mecanisme du « let » est done fondamentalement different du 
mecanisme d'affectation, que nous etudierons plus loin. II est impossible de changer la 
valeur liee a un nom ; on peut seulement redefinir ce nom par une nouvelle definition, 
done un nouveau « let ». 

Une fois defini, un nom a toujours la meme valeur 



Informatique et mathematiques 

La grande difference entre les mathematiques et les langages de programmation, 
meme ceux qui se rapprochent des mathematiques comme Caml, est qu'un langage 
de programmation calcule avec des valeurs et non pas avec des quantites formelles. 
Par exemple, en mathematiques, si x est un entier, alors x — x est egal a 0. II n'est 
pas necessaire de connaitre la valeur de x pour obtenir le resultat du calcul ; on parle 
d'ailleurs plutot de simplification que de calcul. Au contraire, en Caml, on ne peut parler 
d'un nom s'il n'a pas ete precedemment defini. On ne peut done pas calculer x — x si 
x n'est pas lie a une valeur precise, car il est alors impossible de faire effectivement la 
soustraction : 

# x - x; ; 

Entree interactive: 

>x - x;; 

>~ 

L 'identif icateur x n'est pas defini. 

Le langage indique ici que notre phrase est erronee puisque le nom x n'a jamais ete 
defini ; on dit encore que x n'est pas « lie » . Mais le resultat est evidemment le bon, des 
que Pidentificateur est defini ; nous pouvons par exemple faire le calcul avec s : 

# s - s ; ; 

- : int = 0 

Une autre difference essentielle entre un programme et une definition mathematique 
reside dans la notion d'efficacite : un langage de programmation calcule des valeurs de 
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maniere effective, ce qui demande un certain temps. Si ce temps devient prohibitif, 
on peut considerer que le programme est incorrect, meme si l'on peut prouver qu'il 
donnerait un jour le bon resultat. En mathematiques, cette notion de temps de calcul 
est sans importance. Un autre ecueil majeur de l'informatique est qu'elle ne connait 
pas l'infini. Par exemple, la limite quand n tend vers l'infini de f(n), ce qu'on note en 
mathematiques lin^—nx, f(n) et qui signifie la valeur de f(n) quand n devient arbitraire- 
ment grand, existe eventuellement en mathematiques, mais ne peut qu'etre approchee 
par une machine. Enfin, revaluation des expressions d'un langage de programmation 
tel que Caml ne termine pas toujours : les calculs peuvent «boucler » et done ne jamais 
s'achever. Autrement dit, les fonctions definissables par un programme sont en general 
des fonctions partielles (non definies pour certaines valeurs) plutot que des fonctions 
totales (toujours definies). 

Definitions locales 

Les definitions de noms que nous venons de voir sont permanentes : elles restent 
valides tant que vous n'abandonnez pas le systeme Caml. Ces definitions « definitives » 
sont qualifiees de globales. Cependant, pour faire un petit calcul, il est inutile d'utiliser 
des definitions globales : on dispose done en Caml d'un moyen de definir temporairement 
des noms, pour la seule duree du calcul en question. Ces definitions temporaires sont les 
definitions locales, qui disparaissent a la fin de revaluation de la phrase dans laquelle 
elles se trouvent. Ces definitions locales ne sont done plus valides apres le calcul de 
l'expression qui les suit (apres le mot-cle in, qui signifie «dans») : 

# let s = 20 in s * 4; ; 

- : int = 80 

Le nom s a ete lie a 20 pendant le calcul de s * 4, mais la definition precedente 
de s reste inchangee. Pour s'en rendre compte, il suffit de demander la valeur de s, 
e'est-a-dire le resultat du calcul reduit a s : 

# s;; 

- : int = 6 

La definition locale d'un nom est completement independante du type actuel du nom : 
par exemple, s et s2 qui sont actuellement de type int peuvent etre definis localement 
avec le type string : 

# let s = "Le langage " and s2 = "Caml" in s " s2; ; 

- : string = "Le langage Caml" 

Cet exemple utilise l'operateur " qui met deux chaines de caracteres bout a bout (con- 
catenation). Notez egalement que les definitions multiples consistent en une simple 
succession de definitions separees par le mot-cle and (qui signifie «et»). 

1.4 Fonctions 

Les fonctions ferment les constituants elementaires des programmes en Caml. Un 
programme n'est rien d'autre qu'une collection de definitions de fonctions, suivie d'un 
appel a la fonction qui declenche le calcul voulu. 
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Definir une fonction 

Definir une fonction en Caml est simple et naturel, car la syntaxe est tres proche 
des notations mathematiques usuelles. A la definition mathematique «soit successeur 
la fonction definie par successeur(x) = x + 1 » correspond la definition Caml suivante : 

# let successeur (x) = x + 1;; 
successeur : int -> int = <fun> 

Caml nous indique encore une fois que nous avons defini un nom : successeur. Ce nom 
a pour type int -> int (-> se prononce «fleche»), qui est le type des fonctions des 
entiers (int) vers les entiers (-> int) et ce nom a pour valeur une fonction (= <fun>). 
Le systeme a trouve tout seul le type de la fonction, mais il ne sait pas comment 
imprimer les valeurs fonctionnelles, parce que leur representation interne est faite de 
code machine ; il affiche done simplement <fun> sans plus de precisions. Effectivement, 
le nom successeur possede maintenant une valeur : 

# successeur; ; 

- : int -> int = <fun> 

Une definition de fonction n'est done pas essentiellement differente d'une definition 
d'entier ou de chaine de caracteres. Elle definit simplement le nom de la fonction et lui 
donne une valeur qui est une fonction, ce qu'on appelle une valeur fonctionnelle. 

Application de fonctions 

L'application d'une fonction a son argument suit aussi la convention mathematique 
(rappelons que « f(x) » se prononce / de x) : 

# successeur (2) ; ; 

- : int = 3 

Le langage Caml fournit une syntaxe plus souple pour utiliser et definir les fonctions : on 
peut supprimer les parentheses autour des noms des arguments des fonctions aussi bien 
au cours d'une definition que lors d'une application. Etant donnee la paresse legendaire 
des programmeurs, e'est bien sur cette habitude qui predomine ! Avec cette convention, 
on ecrit simplement 

# let successeur x = x + 1;; 
successeur : int -> int = <fun> 

# successeur 2; ; 

- : int = 3 

Definitions locale de fonctions 

Rien n'empeche de definir une fonction localement, bien que cela surprenne souvent 
les debutants en Caml. Voici un exemple de fonction locale : 

# let predecesseur x = x - 1 in 
(predecesseur 3) * (predecesseur 4) ; ; 

- : int = 6 

La fonction predecesseur n'est definie que pendant le calcul du produit des 
predecesseurs de 3 et 4. 
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Les definitions locales sont aussi utilisees dans les definitions globales, par exemple 
pour calculer la formule qui definit une fonction (ce qu'on appelle le corps de la fonc- 
tion). Definissons par exemple la fonction predecesseur_carre qui retourne le carre 
du predecesseur d'un nombre (la fonction x <—> (x — l) 2 ). Nous definissons localement 
le predecesseur de l'argument, puis l'elevons au carre : 

# let predecesseur_carre x = 

let predecesseur_de_x = x - 1 in 
predecesseur_de_x * predecesseur_de_x; ; 
predecesseur _carre : int -> int = <fun> 

# predecesseur_carre 3; ; 

- : int = 4 

Une fonction peut aussi definir localement une autre fonction. Par exemple, pour 
definir la fonction puissance4 qui eleve son argument a la puissance quatre, il est 
naturel d'utiliser la formule x 4 = (x 2 ) 2 , done d'elever au carre le carre de l'argument. 
Pour cela, on definit localement la fonction carre et on l'utilise deux fois : 

# let puissance4 x = 

let carre y = y * y in (* definition locale d'une fonction *) 
carre (carre x) ; ; 
puissance4 : int -> int = <fun> 

# puissance4 3 ; ; 

- : int = 81 

Comme on le voit sur cet exemple, les commentaires en Caml sont encadres entre (* 
et *). lis peuvent contenir n'importe quel texte, y compris d'autres commentaires, et 
s'etendre sur plusieurs lignes. 

Fonctions a plusieurs arguments 

Les fonctions possedant plusieurs arguments ont simplement plusieurs noms 
d'arguments dans leur definition : 

# let moyenne a b = (a + b) / 2; ; 
moyenne : int -> int -> int = <fun> 

# let perimetre_du_rectangle longueur largeur = 

2 * (longueur + largeur) ; ; 
perimetre_du_rectangle : int -> int -> int = <fun> 

Le type de ces deux fonctions, int -> int -> int, indique qu'elles prennent deux 
arguments de type int (int -> int ->) et calculent un entier (-> int). 

Lorsque des fonctions ont plusieurs arguments, il faut evidemment leur fournir aussi 
leur compte d'arguments quand on les applique. Ainsi, un appel a perimetre_du_rectangle 
ou moyenne comportera deux arguments : 

# perimetre_du_rectangle 3 2;; 

- : int = 10 

# moyenne 5 3;; 

- : int = 4 
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Fonctions anonymes 

Une fonction Caml est un « citoyen a part entiere », on dit aussi « citoyen de premiere 
classe», c'est-a-dire une valeur comme toutes les autres. Une fonction a le meme statut 
qu'un nombre entier : elle est calculee, on peut la passer en argument ou la retourner en 
resultat. Les valeurs fonctionnelles sont creees lors des definitions de fonctions, comme 
nous venons de le voir. Cependant, on peut aussi construire des valeurs fonctionnelles 
sans leur donner de nom, en utilisant des fonctions anonymes. Ces fonctions sont in- 
troduces par le mot-cle function, suivi de la formule qui les definit : 

# (function x -> 2 * x + 1) ; ; 

- : int -> int = <fun> 

Encore une fois, Caml nous indique par le symbole - que nous avons fait un simple 
calcul, dont le resultat est de type int -> int et dont la valeur est une fonction (= 
<fun>). On applique les fonctions anonymes comme toutes les autres fonctions, en les 
faisant suivre de leur(s) argument(s) : 

# (function x -> 2 * x + 1) (2) ; ; 

- : int = 5 

Definition de fonctions a l'aide de fonctions anonymes 

II existe un autre style de definitions mathematiques de fonctions : 

« Soit successeur : Z — > Z 

x i— > x + 1 » 

Ce style insiste sur le fait que successeur est une fonction qui a tout element x de 
Pensemble Z des entiers associe x + 1. A l'aide des fonctions anonymes, cette definition 
se traduit tres simplement en Caml : 

# let successeur = function x -> x + 1;; 
successeur : int -> int = <fun> 

Contraintes de type 

Pour se rapprocher encore du style de la definition mathematique, on peut meme 
ajouter une contrainte de type sur le nom de la fonction, qui rend compte de l'indication 
successeur : Z — > Z des mathematiques. Une contrainte de type (ou annotation de 
type) est une indication explicite du type d'une expression Caml. Vous pouvez, si vous 
le souhaitez, ajouter des annotations de type dans vos programmes, par exemple pour 
aider a la relecture. Pour annoter un morceau de programme avec un type, il sufRt 
de mettre ce morceau de programme entre parentheses avec son type, avec la meme 
convention que le systeme interactif, c'est-a-dire un « : » suivi d'un nom de type : 

# ("Caml" : string);; 

- : string = "Caml " 

Nous obtenons maintenant une definition de la fonction successeur tres fidele a celle 
des mathematiques : 
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# let (successeur : int -> int) = function x -> x + 1;; 
successeur : int -> int = <fun> 

Ce style revient a definir le nom successeur comme un nom ordinaire, mais dont la 
valeur est une fonction. Cette definition est absolument equivalente a la precedente 
definition de successeur : 

let successeur (x) = x + 1;; 

Fonctions anonymes a plusieurs arguments 

Le choix entre les deux modes de definition des fonctions est done, comme en 
mathematiques, une simple affaire de style. En regie generale, le style « let successeur 
(x) =» est plus concis, particulierement lorsque la fonction a plusieurs arguments, 
puisque l'autre style oblige a introduire chacun des arguments par une construction 
« function argument ->». Par exemple, definir la fonction moyenne dans le style 
« function x ->» conduirait a ecrire : 

# let moyenne = function a -> function b -> (a + b) / 2;; 
moyenne : int -> int -> int = <fun> 

Au passage, nous remarquons qu'une fonction anonyme a parfaitement le droit d'avoir 
plusieurs arguments. Attention: il n'est pas permis d'ecrire function a b ->, il faut 
imperativement repeter le mot-cle function, une fois par argument. C'est pourquoi 
nous utiliserons la plupart du temps le style le plus leger, celui qui evite d'employer le 
mot function. 

Les tests et l'alternative 

Caml fournit une construction pour faire des calculs qui dependent d'une condi- 
tion : c'est V alternative, le classique « if ... then ... else ... ». Cette construction 
correspond au calcul «si condition alors expressioni sinon expression 2 », qui signifie 
simplement qu'il faut calculer expressioni s i ^ a condition est vraie et expression 2 sinon. 
Nous illustrons cette construction en implementant (c'est-a-dire en realisant sur ma- 
chine) la fonction « valeur absolue », qui calcule la valeur d'un nombre independamment 
de son signe. Cette fonction, notee \x\ en mathematiques, est definie comme: 



Sachant qu'en Caml les comparaisons entre nombres entiers suivent les notations 
mathematiques (<, >, =, >= et <=), nous sommes armes pour definir la fonction valeur 
absolue : 

# let valeur_absolue (x) = if x >= 0 then x else -x; ; 
valeur_absolue : int -> int = <fun> 

# valeur_absolue (3) ; ; 

- : int = 3 

# valeur_absolue (-3) ; ; 

- : int = 3 




X 



—x smon 



si x > 0 
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Valeurs de verite 

Remarquons que les tests calculent un resultat, une valeur de verite. Une valeur de 
verite est soit «vrai», soit «faux», ce qui se note true et false en Caml. On appelle 
aussi les valeurs de verite « valeurs booleennes», en l'honneur du logicien Boole; elles 
sont du type bool. On peut done employer les tests pour calculer un booleen : 

# 2 < 1; ; 

- : bool = false 

# (valeur_absolue (3)) = (valeur_absolue (-3));; 

- : bool = true 

1.5 Valeurs et programmes 

Nous venons de faire des calculs. Mais ou sont done les programmes ? Ce sont tout 
simplement les fonctions ! Un programme consiste en une definition de fonction qui 
calcule le resultat desire. En general cette fonction utilise a son tour d'autres fonctions, 
qui correspondent a la notion de sous-programmes. Par exemple, si vous desirez calculer 
la somme des carres de deux nombres, vous definirez d'abord la fonction carre : 

# let carre (x) = x * x; ; 
carre : int -> int = <fun> 

pour ensuite definir la fonction desiree : 

# let somme_des_carres x y = carre (x) + carre (y) ; ; 
somme_des_carres : int -> int -> int = <fim> 

et enfin l'appliquer dans le cas qui vous interesse : 

# somme_des_carres 3 4;; 

- : int = 25 

En resume : une fonction manipule des valeurs (entiers, chaines de caracteres, booleens) 
qui ont toutes un type ; la fonction elle-meme est une valeur et possede done un type. 
En ce sens, les programmes en Caml sont des valeurs ! 

1.6 Impression 

Notion d'effet 

Caml propose bien sur le moyen d'imprimer des valeurs a l'ecran ou dans des fichiers. 
On utilise pour cela des fonctions dont le but n'est pas d'effectuer des calculs mais de 
produire des effets, e'est-a-dire une action sur le monde exterieur, par exemple une 
interaction avec Putilisateur du programme, Pecriture d'un fichier ou d'un message au 
terminal. 

Un premier effet 

Nous allons realiser un premier effet tres simple: nous ecrivons «Bonjour!» a 
l'ecran en utilisant la fonction predefmie print_string qui a justement pour effet 
d'imprimer son argument au terminal. Une fonction predefinie est une fonction qui 



14 



Premiers pas 



vous est fournie par le systeme Caml ; vous n'avez done pas besoin de l'ecrire. Ces 
fonctions sont decrites en details dans le Manuel de reference du langage Caml. Elles 
sont aussi appelees « fonctions primitives » ou tout simplement « primitives ». Essayons 
la primitive print_string : 

# print_string "Bonjour!";; 
Bon jour!- : unit = () 

L'impression s'est produite comme prevu. Cependant Caml nous indique aussi que 
nous avons calcule un resultat de type unit et qui vaut (). Le type unit est un 
type predefini qui ne contient qu'un seul element, « 0 », qui signifie par convention 
«rien». Nous n'avons pas demande ce resultat: tout ce que nous voulions, e'est faire 
une impression (un effet). Mais toutes les fonctions Caml doivent avoir un argument 
et rendre un resultat. Lorsqu'une fonction opere uniquement par effets, on dit que 
cette fonction est une procedure On utilise alors «rien», e'est-a-dire (), en guise de 
resultat ou d'argument. (En position d'argument dans une definition de fonction, on 
peut considerer () comme un argument minimal: l'argument (x) auquel on aurait 
meme retire la variable x; de meme en resultat, () figure une expression parenthesee 
dont tout le texte aurait disparu.) 

Impressions successives : sequencement 

Supposez qu'il nous faille imprimer deux textes successifs a l'ecran : par exemple, 
« Bonjour » puis «tout le monde!». Nous devons faire deux effets a la suite l'un de 
l'autre, en sequence. Evaluer en sequence deux expressions e\ et e<i signifie simplement 
les evaluer successivement : d'abord e±, puis e<i- Comme dans la plupart des langages de 
programmation, la sequence est notee par un point virgule en Caml. L'operation « e± 
puis e2 » s'ecrit done e\ ; ei- Nous ecrivons done: 

# print_string "Bonjour "; print_string "tout le monde ! " ; ; 
Bonjour tout le monde!- : unit = () 

La machine a d'abord imprime Bonjour puis tout le monde ! , comme on s'y attendait. 
Le resultat de toute l'operation (de toute la sequence) est «rien». Cela s'explique 
naturellement parce que le resultat de la premiere impression (un premier «rien») a 
ete oublie. De maniere generale, la sequence «jette» le resultat du premier calcul et 
renvoie le resultat du second: e\ ; e2 s'evalue en la meme valeur que ei- Comme le 
resultat de e\ est detruit, il est clair que l'expression e\ n'est utile que si elle produit 
des effets: il serait stupide d'evaluer la sequence (1 + 2) ; 0 qui rendrait exactement 
le meme resultat que 0. 

# (1 + 2); 0;; 
Entree interactive: 
>(1 + 2); 0;; 

> 

Attention: cette expression est de type int, 
mais est utilisee avec le type unit. 
- : int = 0 

On constate d'ailleurs que le compilateur emet une alerte pour indiquer que l'expression 
(1 + 2) produit un resultat qui sera ignore! 
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Pour delimiter precisement une sequence, on l'encadre souvent entre les mots-cles 
begin (debut) et end (fin) : 

# begin 

print_string "Voila " ; 

print_string "Caml ! " ; 

print _newline () 
end; ; 
Voila Caml! 
- : unit = () 

La derniere expression, print _newline () , fait imprimer un retour chariot. La fonction 
print_newline opere entierement par effets, elle n'a done pas de parametre significatif, 
ni de resultat significatif. 

1.7 Conventions syntaxiques 

Resumons quelques conventions syntaxiques qu'il est bon d'avoir en tete pour la 
suite. 

Definitions de fonctions 

Pour les definitions de fonctions, nous avons la convention suivante : 
let f x = . . . est equivalent a let / = function x -> ... 



On peut iterer cette convention pour definir les fonctions a plusieurs arguments : 
let f x y = . . . est equivalent a let / = function x -> function y -> ... 

Application de fonctions 

Pour ce qui est de Papplication de fonction, nous avons vu que les parentheses 
autour de l'argument etait facultatives : 

Si x est une variable ou une constante, / x est equivalent a / (x) 



Attention: cette convention n'est valable que lorsque x est une variable ou une con- 
stante. Si vous employez cette convention avec une expression plus compliquee, les 
parentheses retrouvent leur sens habituel en mathematiques (le groupement des expres- 
sions) et la presence de parentheses modifie alors le resultat du calcul. Par exemple, 
l'argument negatif d'une fonction doit imperativement etre parenthese: / (—1) sans 
parentheses est compris comme la soustraction / — 1. De meme, si l'argument est une 
expression complexe, vous ne pouvez pas supprimer les parentheses sans changer le 
resultat : 

# successeur (2 * 3) ; ; 
- : int = 7 
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# successeur 2*3;; 
- : int = 9 

Cette derniere phrase est comprise par Caml comme si vous aviez ecrit (successeur 
2) * 3. C'est d'ailleurs un phenomene general pour tous les operateurs de Caml: les 
applications de fonctions en argument des operations sont implicitement parenthesees. 
Par exemple successeur 2 - successeur 3 est lu comme (successeur 2) - 
(successeur 3) , et de meme pour tous les operateurs : successeur 2 >= successeur 
3 est correctement interprets. 

/ x + g y est equivalent a (/ x) + {g y) 



Application de fonctions a plusieurs arguments 

L' application de fonctions a plusieurs arguments suit les memes conventions : 
moyenne (2) (6) est equivalent a moyenne 2 6, mais vous devez conserver les 
parentheses si vous voulez calculer moyenne (2*3) (3 + 3). 

Techniquement, on dit que P application « associe a gauche » en Caml, ce qui signifie 
que les parentheses peuvent etre omises dans (/ x) y, qui correspond au resultat de / de 
x applique a y, mais qu'elles sont indispensables dans / (g x), qui signifie au contraire 
/ appliquee au resultat de l'application de la fonction g a x. 

f x y est equivalent a (/ x) y 



Au lieu de moyenne 2 6, on peut done ecrire (moyenne 2) 6 . La deuxieme forme est 
evidemment un peu etrange, mais elle a la meme signification que la premiere. On a 
done beaucoup de manieres equivalentes d'exprimer l'application de la fonction moyenne 
a 2 et a 6. La plus simple est evidemment sans parentheses aucunes : « moyenne 2 6 ». 
Mais Ton peut ecrire aussi « moyenne (2) (6) » ou, en utilisant la regie precedente pour 
ajouter encore des parentheses, « (moyenne (2)) 6» ou meme « (moyenne (2)) (6) ». 
En pratique, nous utiliserons toujours la forme la plus simple, sans parentheses. 

En revanche, on ne peut absolument pas grouper les arguments 2 et 6 a l'interieur 
de parentheses: moyenne (2 6) est errone. Cela signifierait en effet qu'on desire ap- 
pliquer moyenne a un seul argument «2 6». Qui plus est, cela voudrait dire qu'on 
tente d'appliquer le nombre 2 au nombre 6 ! Des expressions construites sur le modele 
moyenne (2 6), e'est-a-dire, plus generalement, du genre / (g y), ont pourtant un 
sens. Considerez, par exemple le calcul du successeur du successeur de 1. On ecrit 
naturellement : 

# successeur (successeur 1) ; ; 
- : int = 3 

Mais si l'on ote les parentheses, on ecrit successeur successeur 1 et cela signifie 
maintenant que nous voulons appliquer la fonction successeur a deux arguments (le 
premier argument serait la fonction successeur elle-meme et le second argument serait 
1). Cependant la fonction successeur n'admet qu'un seul argument; si nous retirons 
les parentheses (sciemment ou par inadvertance), Caml nous indique done une erreur : 
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# successeur successeur 1;; 
Entree interactive: 
>successeur successeur 1;; 
> 

Cette expression est de type int -> int , 
mais est utilisee avec le type int. 

Le message indique en effet que l'expression soulignee (successeur) est une fonction 
de type int -> int : elle ne peut pas etre utilisee comme un argument entier. 
Retenons de toute facon que : 

/ (<7 y) n'est pas equivalent a / g y 



1.8 Diagrammes syntaxiques 

Nous resumons la maniere d'ecrire les constructions de Caml au moyen de definitions 
simplifies de syntaxe, telles que : 

expression ::= entier 

chaine-de-caracteres 
booleen 

Cette definition signifie qu'une expression du langage Caml (expression) est (::=) ou 
bien un entier (entier), ou bien (|) une chaine de caracteres (chaine-de-caracteres) , ou 
bien (|) un booleen (booleen), ou bien . . . Ceci n'est qu'un exemple et nous ne faisons 
evidemment pas figurer toutes les constructions concernant les expressions. D'ailleurs, 
nous savons deja qu'une sequence est une expression ; elle devrait done figurer dans 
l'ensemble des expressions, de meme que les expressions parenthesees (toute expression 
entouree de parentheses est une expression). Avec ce formalisme, une sequence se decrit 
par : 

sequence ::= expression ; expression 

ou encore, si elle est delimitee par les mots-cles begin et end : 

sequence ::= begin expression ; expression end 

Cette methode de description de la syntaxe d'un langage est appelee « syntaxe BNF», 
pour Backus-Naur Form, des noms de John Backus et Peter Naur qui l'ont repandue. 
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Recursivite 



Oil I 'on apprend a parler de ce qu 'on ne connait pas encore . . . 

\m OUS NE CONNAISSEZ PAS les fonctions recursives, ou n'y avez jamais rien 
JI compris, ou bien vous vous passionnez pour les tours de Hanoi? Alors lisez 

J* ce chapitre, il est fait pour vous. Nous y apprendrons une nouvelle maniere 
d'utiliser l'ordinateur. Jusqu'a present nous nous en servions pour obtenir les solutions 
a des problemes que nous savions resoudre, mais qui demandaient trop de calculs 
mathematiques pour que nous les traitions a la main. C'est l'emploi de l'ordinateur le 
plus repandu actuellement : la machine sert a effectuer un tres grand nombre de fois 
des operations simples (pensez a des logiciels de gestion, paye ou comptes en banque) . 
Avec la recursivite, on eleve la programmation a un rang autrement plus noble : on 
ecrit des programmes qui resolvent des problemes que Ton ne sait pas forcement 
resoudre soi-meme. Parvenir a diriger une machine pour qu'elle trouve pour nous la 
solution d'un probleme est reellement fascinant, il est meme grisant de voir apparaitre 
cette solution au terminal, quand elle est le resultat de l'execution d'un programme 
qu'on a soi-meme ecrit sans avoir conscience de savoir resoudre le probleme. 

2.1 Fonctions recursives simples 

Notion de recursivite 

Une definition recursive est une definition dans laquelle intervient le nom qu'on est 
en train de definir. Cela correspond dans le langage courant a une phrase qui « se mord 
la queue ». L'exemple typique est la reponse a la question «Qu'est-ce qu'un ego'iste?» : 
« Quelqu'un qui ne pense pas a moi ! ». II est clair qu'on soupgonne legitimement ce genre 
de phrases d'etre denuees de sens et que c'est souvent le cas. Pourtant, les definitions 
recursives sont tres employees en mathematiques et en informatique, domaines ou Ton 
se mefie beaucoup des phrases « denuees de sens». II existe done forcement des phrases 
qui « se mordent la queue » et pourtant possedent une signification precise, utilisable en 
mathematiques ou informatique. Toute la difficulte des definitions recursives provient 
de la detection des cas ou la recursivite entraine le non-sens. Une definition recursive 
sensee est qualifiee de bien fondee. Nous verrons par l'exemple ce que cela veut dire. 
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L'intuition la plus simple qu'on puisse donner de la recursivite est l'idee de 
« recommencer » la meme chose. La recursivite est presente aussi dans le domaine 
graphique, un exemple nous est donne par le celebre dessin qui orne les couvercles 
de «Vache qui rit», figurant une vache qui porte en boucles d'oreilles des boites de 
«Vache qui rit» (dont les couvercles comportent done le dessin lui-meme). Dans le 
domaine physique, Pinfmite d'images qui apparait dans deux miroirs quasi paralleles 
est aussi une bonne analogie (experience habituelle chez le coiffeur). 

Prenons un exemple plus informatique : la tres celebre fonction « factor ielle», 
qui retourne le produit des nombres entiers inferieurs ou egaux a son argument. En 
mathematiques, elle est notee par un point d'exclamation (!) place apres son argument. 
On a par exemple 4! = 4x3x2x1. La fonction factorielle est definie par : 



Cette definition est recursive : le nom « ! » intervient dans le corps de sa propre 
definition. Done, pour comprendre la signification de n\ il faut comprendre celle de 
(n — 1)!. Cela semble difficile, car on exige la comprehension d'une notion qu'on est 
justement en train d'expliquer . . . En fait, cela se justifie parce que le calcul de n\ 
termine toujours : il suffit d'etre patient et de continuer le calcul jusqu'a atteindre 0, ce 
qui arrivera forcement puisqu'on explique la signification de n! en fonction de (n — 1)!. 
Par exemple : 



La definition mathematique recursive de la fonction factorielle est done bien fondee : 
on obtient finalement un resultat pour tout argument entier naturel. 

Ce genre de definition se traduit tres facilement en Caml ; mais pour cela nous 
devons explicitement prevenir Caml que nous desirons faire une definition recursive, 
grace a une nouvelle construction : let rec. Avant de Pemployer, expliquons pourquoi 
il est necessaire d'introduire une nouvelle construction. 

Portee statique et definitions recursives 

En mathematiques, vous ne pouvez parler d'une entite mathematique avant d'en 
avoir donne la definition. Le meme axiome est vrai en Caml : vous ne pouvez utiliser 
un identificateur s'il n'a regu une definition prealable. C'est ce qu'on appelle la portee 
statique, parce que vous pouvez trouver la definition de n'importe quel identificateur 
independamment du comportement du programme a l'execution (au contraire de la 
portee dynamique, ou la valeur d'un identificateur depend de la fagon dont le calcul 
se deroule). En Caml, pour une occurrence quelconque d'un identificateur, disons x, il 
vous suffit d'examiner le texte du programme qui precede x pour trouver la liaison qui 
a defini x. Cette liaison est soit une definition de x : let x =, soit une definition de 
fonction qui a x pour parametre : function x ->. 




1 si n = 0 

nx(n-l)! sinon. 



3! = 3 x (3 - 1)! = 3 x 2! 

= 3 x 2 x (2 - 1)! = 3 x 2 x 1! 

= 3x2xlx(l- 1)1 = 3x2x1x0! 

= 3x2x1x1=6 
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# let x = 1 in 
let x = x + 1 in 
x + 3; ; 

- : int = 5 

L'identificateur x qui apparait dans x + 1 dans la definition let x = x + 1 est lie a 1 
(par la precedente definition let x = 1), alors que le dernier x dans x + 3 est lie a 2 
par la precedente definition let x = x + 1, comme le suggere ce schema: 

let x = 1 in 
let x = (x) + 1 in 

Le mecanisme de liaison est similaire pour des definitions simultanecs (definitions 
separees par le mot-cle and). 

# let x = 1 in 
let x = x + 1 

and y=x+2inx+y;; 

- : int = 5 

Les deux x intervenant dans les definitions let x = ... and y = ... font tous les 
deux reference au nom x precedemment defini par let x = 1. Les liaisons sont mises 
en evidence dans ce schema : 



let x 


= i 


in 




let x 


-(g) 


+ 1 




and y 


= (*) 


+ 2 


in 


© + d) 









On retiendra que, dans une definition Caml (y compris une definition simultanee), 



Un nom fait toujours reference a une definition prealable. 



La construction let rec 

Ceci pose evidemment probleme pour definir des fonctions recursives : nous ne pou- 
vons utiliser une definition introduite par un let, a cause de la regie de portee statique. 
En effet, si nous ecrivons let f = ... f . . . , l'occurrence de f dans l'expression 
definissante ... f . . . ne correspond pas au nom f que nous sommes en train de 
definir (en particulier parce que f n'est pas encore definie !) mais doit correspondre a 
une definition precedente de f. Un petit schema vaut mieux qu'un long discours : la 
liaison de f s'etablit vers le passe. 

let f = . . .(jj) ... in 

C'est pourquoi une simple construction let ne permet pas de definir une fonction 
recursive : 
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# let f actorielle n = if n = 0 then 1 else n * f actorielle (n - 1) ; ; 
Entree interactive: 

>let f actorielle n = if n = 0 then 1 else n * f actorielle (n - 1) ; ; 



> 



L 'identif icateur f actorielle n'est pas defini. 

En bref : une liaison let n'est pas recursive ; il y a done en Caml une construction 
speciale, let rec, destinee a introduire les definitions recursives. Cette construction 
etablit une liaison de la forme suivante : 



Maintenant, nous definissons facilement la fonction factorielle : 

# let rec factorielle n = 

if n = 0 then 1 else n * factorielle (n - 1) ; ; 
factorielle : int -> int = <fun> 

# factorielle 3; ; 
- : int = 6 

Compter a l'endroit et a l'envers 

Pour comprendre comment s'execute un appel a une fonction recursive, definissons 
une fonction qui enumere les nombres par ordre decroissant jusqu'a 1, a partir d'une 
certaine limite : par exemple, pour une limite de 5 nous voulons obtenir l'impression de 
« 5 4 3 2 1 » sur l'ecran. 

Bien que le but de ce programme soit exclusivement de produire des effets, la 
recursivite s'y introduit naturellement, puisque enumerer a partir d'une certaine limite 
n, e'est : si la limite est 0, alors ne rien faire ; sinon, imprimer n, puis enumerer les 
nombres precedents. Si Ton se rend compte que « enumerer les nombres precedents » 
consiste tout simplement a appeler notre fonction avec la nouvelle limite n — 1, on 
obtient le programme suivant : 

# let rec compte_a_rebours n = 

if n = 0 then () else 
begin 

print_int n; print_string " "; 
compte_a_rebours (n - 1) 
end; ; 

compte_a_rebours : int -> unit = <fun> 

# compte_a_rebours 10; ; 

10 987654321- : unit = Q 

La fonction d'impression des entiers au terminal se nomme tout naturellement 
print_int, par analogie avec la fonction d'impression des chaines print_string. Vous 
devinez le schema de nommage de ces fonctions, qui consiste a sufHxer le nom print_ 
par le type de l'argument. Ainsi, la fonction d'impression des nombres flottants (les 
valeurs du type float que nous verrons au chapitre 8) s'appelle print_f loat, et celle 
pour les caracteres (type char) s'appelle print_char. 

Telle qu'elle est ecrite, la fonction compte_a_rebours ne termine pas si on lui passe 
un argument negatif (la definition n'est done pas bien fondee). II serait plus sur de 
remplacer le test n = 0 par le test n <= 0. 



let rec f = 




. . . in 
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Par curiosite, inversons l'appel recursif et les impressions : autrement dit rem- 
placons print_int n; print_string " "; compte_a_rebours (n - 1) par 
compte_a_rebours (n - 1); print_int n; print_string " ". Et afin de ne pas 
perdre notre fonction precedents, nous nommons compte cette version modifiee de 
compte_a_rebours. Nous obtenons : 

# let rec compte n = 

if n = 0 then () else 
begin 

compte (n - 1) ; 
print_int n; print_string " " 
end; ; 

compte : int -> unit = <fun> 

# compte 10; ; 

123456789 10-: unit = Q 

Cette fonction compte a l'endroit ! C'est plus difficile a comprendre : l'impression se 
produit au retour des appels recursifs. On doit d'abord atteindre n = 0 avant d'imprimer 
le premier nombre, qui est alors f. En effet, c'est toujours pendant revaluation de 
compte 1 que nous appelons compte 0. Apres avoir imprime 1, compte 1 retourne a 
revaluation de compte 2, qui ecrit 2 et retourne a compte 3, et ainsi de suite. 

Nous allons utiliser le mecanisme de « trace » de Caml pour suivre les appels recursifs 
et les impressions. Ce mecanisme imprime a l'ecran les appels successifs d'une fonc- 
tion, ainsi que les resultats que la fonction calcule. Tracons par exemple la fonction 
successeur : 

# let successeur x = x + 1;; 
successeur : int -> int = <fun> 

# trace "successeur";; 

La fonction successeur est dorenavant tracee. 

- : unit = () 

# successeur 2 ; ; 
successeur < — 2 
successeur — > 3 

- : int = 3 

Vous l'avez devine, l'appel d'une fonction est indique par le signe < — suivi de 
l'argument concerne, tandis que le signe — > signale un retour de fonction et affiche 
le resultat obtenu. Nous suivons maintenant le deroulement des appels a compte et 
compte_a_rebours : 

# trace "compte"; trace "compte_a_rebours" ; ; 
La fonction compte est dorenavant tracee. 

La fonction compte_a_rebours est dorenavant tracee. 

- : unit = () 

# compte 3 ; ; 
compte < — 3 
compte < — 2 
compte < — 1 
compte < — 0 
compte — > () 

1 compte — > () 
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2 compte — > () 

3 compte — > () 

- : unit = () 

On voit clairement que compte i s'acheve avant l'impression de i — 1 et que compte 0 se 
termine avant toute impression. Cela contraste avec compte_a_rebours, qui imprime 

1 avant l'appel compte_a_rebours (i — 1) : 

# compte_a_rebours 3;; 
compte_a_rebours < — 3 

3 compte_a_rebours < — 2 

2 compte_a_rebours < — 1 
1 compte_a_rebours < — 0 
compte_a_rebours — > () 
compte_a_rebours — > () 
compte_a_rebours — > () 
compte_a_rebours — > () 

- : unit = () 

Epeler a l'endroit et a l'envers 

Nous allons maintenant montrer la recursion a l'oeuvre sur les chaines de caracteres. 
Pour ce faire, nous avons besoin d'operations supplementaires sur les chaines de car- 
acteres. La fonction predefinie string_length renvoie la longueur d'une chaine de car- 
acteres. La notation s . H designe le i ieme caractere de la chaine de caracteres s. Le pre- 
mier caractere a pour numero 0 ; le dernier a done pour numero string_length s — 1. 

Acces dans une chaine s ::= s . [ indice ] 

# let le_langage = "Caml";; 
le_langage : string = "Caml" 

# string_length le_langage ; ; 

- : int = 4 

# le_langage . [0] ; ; 

- : char = 'C 

Un caractere en Caml est done un signe typographique quelconque compris entre deux 
symboles 

Voici deux fonctions qui epellent des mots. La premiere epelle a l'envers, en com- 
mengant par le dernier caractere de la chaine et en s'appelant recursivement sur le 
caractere precedent. 

# let rec epelle_envers_aux s i = 

if i >= 0 then 
begin 

print_char s . [i] ; print_char ' 
epelle_envers_aux s (i - 1) 
end; ; 

epelle_envers_aux : string -> int -> unit = <fun> 

# let epelle_envers s = epelle_envers_aux s (string_length s - 1) ; ; 
epelle_envers : string -> unit = <fun> 
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# epelle_envers "snob";; 
boas- : unit = () 

La seconde epelle a l'endroit, en commengant par le premier caractere et en s'appelant 
recursivement sur le prochain caractere. 

# let rec epelle_aux s i = 

if i < string_length s then 
begin 

print_char s . [i] ; print_char ' '; 
epelle_aux s (i + 1) 
end; ; 

epelle_aux : string -> int -> unit = <fun> 

# let epelle s = epelle_aux s 0;; 
epelle : string -> unit = <fun> 

# epelle "snob" ; ; 
snob- : unit = () 

Ces deux exemples utilisent une forme nouvelle de l'alternative : la construction 
« if ... then ...» sans partie else. La partie else omise est implicitement completee 
par le compilateur, qui ajoute else (), autrement dit «sinon rien». Ainsi, le code: 

if i >= 0 then begin . . . end; ; 
est compris par Caml comme si nous avions ecrit : 

if i >= 0 then begin . . . end else () ; ; 
Cette completion automatique vous explique pourquoi la phrase suivante est mal typee : 

# if true then 1 ; ; 
Entree interactive: 
>if true then 1 ; ; 

> 

Cette expression est de type int, 
mais est utilisee avec le type unit. 

Retenons la definition d'une alternative sans partie else : 

if cond then e est equivalent a if cond then e else () 



Les palindromes 

Un palindrome est un mot (ou un groupe de mots sans blancs) qui se lit aussi bien 
a l'endroit qu'a l'envers. Pour determiner si un mot constitue un palindrome, il sufHt 
de verifier que ses premier et dernier caracteres sont identiques, puis de verifier que le 
mot situe entre ces deux caracteres est lui aussi un palindrome. 

memes caracteres 

i i 

chaine s |c|o|o|o|o|o|o|o|o|o|c| 
| palindrome s' | 

II faut aussi remarquer qu'un mot reduit a un seul caractere est un palindrome et que 
la chaine vide est elle aussi un palindrome (puisqu'elle se lit aussi bien a l'endroit qu'a 
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l'envers). Pour obtenir une sous-chaine d'une chaine de caracteres, on utilise la fonction 
predefinie sub_string (sous-chaine), qui extrait une sous-chaine partant d'un indice 
donne et d'une longueur donnee : 

# sub_string "Le langage Caml" 3 7;; 

- : string = "langage" 

En particulier, sub_string s 1 (string_length s - 2) retourne la chaine s privee 
de son premier et de son dernier caractere. Ceci se traduit par la fonction recursive 
suivante : 

# let rec palindrome s = 

let longueur = string_length s in 
if longueur <= 1 then true else 
if s . [0] = s . [longueur - 1] 

then palindrome (sub_string s 1 (longueur - 2)) 
else false; ; 
palindrome : string -> bool = <fun> 

# palindrome "serres";; # palindrome "toto" ; ; 

- : bool = true - : bool = false 



Operateurs booleens 

Cette fonction s'ecrit plus elegamment a l'aide des operateurs « et » et « ou » des 
booleens. Par definition, si P et Q sont des booleens, alors l'expression P et Q est vraie 
quand P et Q sont vraies simultanement. Naturellement, l'expression P ou Q est vraie 
des que P ou bien Q est vraie et o fortiori si P et Q sont vraies. En Caml le « ou » se 
note I I et le «et» &&. 

Les operateurs M et && remplacent certaines formes d'expressions conditionnelles. 
En effet, la construction if P then true else Q calcule la meme valeur booleenne que 
P I I Q et de meme if P then Q else false calcule la meme valeur que P && Q. Bien 
sur, if P then true else false se simplifie en P. On clarifie souvent les programmes 
en appliquant ces equivalences. Voici done une version plus simple de palindrome qui 
utilise les operateurs booleens : 

# let rec palindrome s = 

let longueur = string_length s in 
(longueur <= 1) II 

(s.[0] = s. [longueur - 1] ) kt 

(palindrome (sub_string s 1 (longueur - 2)));; 
palindrome : string -> bool = <fun> 

Les constructions II et && ont les memes priorites relatives que + et *, e'est-a-dire le 
meme parenthesage implicite. Ainsi, de la meme fagon que a + b * c se lit en fait 
a + (b * c), l'expression a | | b && c est lue a | | (b && c) par la machine. On 
lit alors le code de palindrome tres naturellement : une chaine est un palindrome si sa 
longueur est inferieure a 1, ou si ses caracteres de debut et de fin sont les memes et que 
la sous-chaine qu'ils delimitent est un palindrome. 
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Fonction recursive a plusieurs arguments 

Pour plus d'efncacite, nous reecrivons la fonction palindrome en comparant di- 
rectement les caracteres de la chaine argument deux a deux, sans creer de sous-chaines. 
On prend done deux indices dans la chaine argument s. L'indice i demarre au premier 
caractere ; l'indice j demarre au dernier caractere (au depart de la boucle on a done 
necessairement i < j, sauf si la chaine est vide). A chaque etape, on compare les car- 
acteres d'indice i et j. S'ils sont egaux, on continue ; sinon, la chaine n'est evidemment 
pas un palindrome. La recursion s'arrete quand l'indice i atteint ou depasse j. Dans le 
cas i = j, on est sur le caractere central de la chaine et il n'y a rien a faire (il ne reste 
qu'un caractere a examiner forcement egal a lui-meme) : s est un palindrome. Dans le 
cas i > j, il n'y a rien a faire non plus : on a depasse le milieu de la chaine en ayant 
compare deux a deux tous les caracteres, done s est un palindrome. Cet exemple nous 
fournit notre premiere fonction recursive a plusieurs arguments. 

# let rec palin s i j = 

(i >= j) II (s.[i] = s.[j]) && (palin s (i + 1) (j - 1));; 
palin : string -> int -> int -> bool = <fun> 

# let palindrome s = palin s 0 (string_length s - 1) ; ; 
palindrome : string -> bool = <fun> 

# palindrome "eluparcettecrapule" ; ; 

- : bool = true 

On simplifie encore un peu ce programme en ecrivant la palin a l'interieur de 
palindrome, ce qui lui ote l'argument s, qui est lie par la fonction palindrome et 
qui est done visible par la fonction locale palin. C'est la version la plus jolie. Par 
coquetterie, nous avons aussi supprime les parentheses autour des tests, car elles sont 
implicites. 

# let palindrome s = 

let rec palin i j = 

i >= j II s. [i] = s. [j] && palin (i + 1) (j - 1) in 
palin 0 (string_length s - 1) ; ; 
palindrome : string -> bool = <fun> 

# palindrome "tulaStroPecraseCesarcePortSalut" ; ; 

- : bool = true 

2.2 Definitions par cas : le filtrage 

Nous avons donne la definition recursive suivante de la fonction factorielle : 
let rec factorielle n = if n = 0 then 1 else n * factorielle (n - 1) ; ; 

Caml dispose d'une maniere encore plus concise de definir cette fonction : Panalyse de 
cas. II y a ici deux cas possibles pour l'argument de factorielle, ou bien c'est 0 ou 
bien il est different de 0. On l'ecrit ainsi : 

# let rec factorielle = function 

I 0 -> 1 

I n -> n * factorielle (n - 1) ; ; 
factorielle : int -> int = <fun> 
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L'analyse de cas I 0 -> 1 | n -> n * factorielle (n - 1) signifie simplement : 
si l'argument de la fonction est 0 alors renvoyer 1, sinon nommer n l'argument de la 
fonction et retourner n * factorielle (n - 1 ) . La barre verticale « I » introduit done 
les cas et correspond a un «ou bien», tandis que la fleche «->» indique ce qu'il faut 
calculer dans le cas correspondant. 

L'analyse de cas porte le nom technique de filtrage que nous emploierons desormais. 
Le filtrage est un trait extremement puissant de Caml. II est integre dans de nombreuses 
constructions du langage et tres frequemment employe dans les programmes. 

II arrive dans certains cas qu'on n'utilise pas l'argument de la fonction pour calculer 
le resultat : 

# let egal_un = function I 1 -> true I x -> false;; 
egal_un : int -> bool = <fun> 

Pour bien montrer que le nom x ne sert a rien, puisque sa valeur n'est pas necessaire 
pour retourner false, on se sert d'un symbole special «_» (le souligne), qui signifie 
« dans tous les autres cas » : 

# let est_un = function I 1 -> true I _ -> false;; 
est_un : int -> bool = <fun> 



# est_un 1;; # est_un 0;; 

- : bool = true - : bool = false 

Nous abordons maintenant un probleme apparemment tres difficile, qu'une fonction 
recursive resout sans difficulte et avec une grande elegance. 



2.3 Les tours de Hanoi 
La legende 

Le jeu des tours de Hanoi consiste en une plaquette de bois sur laquelle sont plantees 
trois tiges. Sur ces tiges sont entiles des disques de bois dont les diametres sont tous 
differents. La seule regie du jeu est de ne jamais poser un disque sur un disque plus 
petit que lui, et de ne deplacer qu'un seul disque a la fois. Au debut du jeu tous les 
disques sont poses sur la tige de gauche. Le but du jeu est de deplacer les disques d'une 
tige sur l'autre, sans jamais violer la regie, pour finalement les amener tous sur la tige 
de droite. 

Le jeu original etait accompagne d'une notice racontant la legende de moines d'un 
temple de Hanoi qui passaient leur temps a resoudre ce jeu pour atteindre le nirvana. 
En effet, les moines croyaient que la fin du monde arriverait lorsque le jeu serait acheve. 
Leur jeu grandeur nature occupait la cour d'un temple. II se composait de 64 disques 
d'or et de trois tiges d'ivoire d'un metre de haut. Cette legende a ete inventee par le 
mathematicien frangais Edouard Lucas en 1883. 

Notre but est d'ecrire un programme qui indique les mouvements a faire pour 
resoudre le jeu. Si vous n'etes pas trop impatient, cherchez quelques instants vous- 
meme la solution. C'est difficile, n'est-ce pas? Et pourtant, ce jeu est etrangement 
facile a resoudre avec une procedure recursive. 
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Deplacer les autres disques sur B en respectant la regie : 
hanoi A C B (n - 1) 




| plus gros disquc 1 
A 



B 



Deplacer le disque restant vers C : 
mouvement A C 



plus gros disque" 
A 



autres 
disques 



B 



Deplacer les autres disques de B vers C en respectant la regie : 
hanoi B A C (n - 1) 



autres 
disques 



| plus gros disquc~| 
C 



autres 
disques 



| plus gros disquc "| 
C 



Figure 2.1: Comment resoudre le probleme des tours de Hanoi. 
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Le programme 

Supposons que les tiges s'appellent A, B et C, que n soft le nombre de disques, tous 
poses au depart sur la tige A, et que nous devions les mettre sur la tige C. L'astuce 
consiste a se rendre compte que si nous savions comment resoudre le probleme pour 
n — 1 disques alors nous saurions le faire pour n, sans violer la regie. En effet, si Ton 
suppose les n — 1 disques deja poses sur la tige B, le dernier disque encore pose sur la 
tige A est le plus gros disque. II nous suffit done de le poser sur la tige C qui est vide 
(pas de violation possible de la regie), puis de deplacer les n — 1 disques de la tige B a 
la tige C. C'est possible puisque nous supposons savoir comment deplacer n — \ disques 
d'une tige a une autre et puisque c'est le plus gros disque qui est maintenant pose sur 
C, il n'y a pas de violation de la regie en posant les n — 1 disques de B sur la tige C (voir 
la figure 2.1). Mais nous savons aussi resoudre le probleme pour 0 disques : il n'y a rien 
a faire. Nous savons done resoudre le probleme des tours de Hanoi pour tout n. C'est 
encore plus facile a dire en Caml : nous definissons d'abord une fonction auxiliaire pour 
imprimer les mouvements, puis la procedure principale. 

# let mouvement de vers = 

print_string 

("Deplace un disque de la tige " " de " " a la tige " " vers); 
print _newline 0 ; ; 
mouvement : string -> string -> unit = <fun> 

# let rec hanoi depart milieu arrivee = function 

I 0 -> () 

I n -> hanoi depart arrivee milieu (n - 1) ; 
mouvement depart arrivee ; 
hanoi milieu depart arrivee (n - 1) ; ; 
hanoi : string -> string -> string -> int -> unit = <fun> 

Les noms des arguments depart, milieu et arrivee sont echanges lorsque nous voulons 
deplacer les disques d'une tige a l'autre : par exemple, pour deplacer un disque de la tige 
de nom depart vers la tige argument milieu, nous ecrivons hanoi depart arrivee 
milieu 1. 

# hanoi "A" "B" "C" 3; ; 

Deplace un disque de la tige i a la tige C 
Deplace un disque de la tige A a la tige B 
Deplace un disque de la tige C a la tige B 
Deplace un disque de la tige A a la tige C 
Deplace un disque de la tige B a la tige A 
Deplace un disque de la tige B a la tige C 
Deplace un disque de la tige A a la tige C 
- : unit = () 

Verifiez : le casse-tete est resolu. C'est magique! On n'a pas vraiment l'impression 
d' avoir ecrit un programme si savant . . . 

Ne vous inquietez pas si vous eprouvez des difncultes a comprendre la procedure 
hanoi. C'est normal, car c'est le premier exemple de programme Caml qui nous oblige 
a changer franchement notre fagon d'apprehender les programmes. En effet, il est 
extremement difficile de comprendre comment la procedure marche. Au contraire, il 
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faut se demander pourquoi elle marche. Le pourquoi est simple : il est entierement con- 
tent! dans la figure 2.1. Si vous etes persuade du bien-fonde de la methode de resolution 
que la figure suggere et que vous etes convaincu que la procedure hanoi implemente 
correctement cette methode, alors ne cherchez pas plus loin: vous avez tout compris. 
Si en revanche vous essayez de suivre le deroulement des appels recursifs et les per- 
mutations d'arguments qui se deroulent a l'execution de la procedure (par exemple 
en utilisant la trace de Caml), vous serez vite perdu. En fait, meme si vous suiviez 
precautionneusement ce deroulement vous n'en apprendriez pas plus, si ce n'est que 
ga marche, puisque vous constateriez que les bons arguments se mettent en place au 
bon moment pour produire les bons resultats, comme par miracle. II faut se decider 
a penser que ce suivi pas a pas du deroulement des programmes est du ressort de la 
machine exclusivement. Notre comprehension est de bien plus haut niveau: elle con- 
siste essentiellement a prouver que le programme ne pent que marcher; comment le 
programme parvient effectivement au bon resultat ne nous regarde pas. II est heureux 
que cette noble activite de reflexion sur le bien-fonde d'une methode de resolution d'un 
probleme nous appartienne en propre, alors que nous deleguons aux machines la mise 
en ceuvre effective. Un equilibre se cree ainsi : si la reflexion sur la methode est hors de 
portee de la machine, la gestion sans erreurs des passages de parametres et la reprise 
des appels recursifs en suspens est un jeu d'enfant pour la machine, alors que nous 
serions incapables d'une telle rigueur. Rendons done aux machines ce qui appartient 
aux machines. 

Pour ceux que cela interesse, la section suivante esquisse les fondements theoriques 
de la methode qui explique pourquoi la procedure hanoi marche effectivement. Acces- 
soirement, il permet aussi de calculer la date a laquelle les moines auront acheve leur 
travail et donne done une bonne idee de la date de la fin du monde ! Si tout cela ne 
vous preoccupe pas, passez directement au chapitre suivant. 

2.4 Notions de complexite 

La complexite est l'etude du nombre d'operations necessaires a l'achevement d'un 
calcul. Une analyse de complexite permet done de se faire une idee du temps de cal- 
cul necessaire a l'achevement d'un programme, en fonction de l'argument qui lui est 
soumis. En general, on compte le nombre d'operations elementaires (additions, multi- 
plications, soustractions et divisions, comparaisons de valeurs, affectations d'elements 
de tableau) et/ou le nombre d'appels de fonctions. Par exemple, la fonction successeur 
demande une seule operation, quel que soit son argument. En revanche, la complexite 
de la fonction f actorielle depend de son argument : elle demande n operations pour 
l'argument n. Plus precisement, il faut n multiplications, n+1 appels recursifs a la fonc- 
tion f actorielle et n soustractions. Si Ton considere que ces trois types d'operations 
ont des couts voisins, alors la complexite de f actorielle est de l'ordre de 2n + (n + 1), 
e'est-a-dire de l'ordre de 3n. On considerera done que la fonction factorielle a une 
complexite qui augmente au meme rythme que son argument, ce qu'on note 0{n) et 
qu'on prononce «grand-o de n». Plus precisement, 0(n) signifie «un certain nombre 
de fois» n, plus des termes negligeables devant n quand n devient grand, comme par 
exemple une constante. On ne s'interesse en effet qu'a un ordre de grandeur de la com- 
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plexite : cette complexity augmente-t-elle comme l'argument (algorithme lineaire), ou 
comme le carre de l'argument (algorithme quadratique) , ou comme une exponentielle de 
l'argument (algorithme exponentiel) ? Dans le cas de f actorielle, on resume Petude 
en notant une complexite lineaire 0(n), puisque la complexity reelle est 3n + 1. 

Principe de recurrence 

Les etudes de complexite et les definitions recursives de fonctions reposent sur un 
raisonnement simple sur les proprietes qui concernent les nombres entiers : le principe 
de recurrence. Nous allons Pexpliquer, puis Putiliser pour demontrer des proprietes de 
la fonction hanoi. 

Le principe de recurrence s'enonce informellement ainsi : si une certaine propriete 
sur les nombres entiers est vraie pour 0 et si la propriete est vraie pour le successeur 
d'un nombre des qu'elle est vraie pour ce nombre, alors cette propriete est vraie pour 
tous les nombres. Formellement : soit P{n) une propriete qui depend d'un entier n. Si 
les phrases suivantes sont vraies : 

1. .P(O) est vraie, 

2. si P(n) est vraie alors P(n + 1) est vraie, 

alors P(n) est vraie pour tout n. 

Ce principe est en fait evident : les deux proprietes demandees par le principe de 
recurrence permettent facilement de demontrer la propriete P pour toute valeur entiere. 
Par exemple, supposons que P verifie les deux proprietes et qu'on veuille demontrer 
que P est vraie pour 2. Puisque P est vraie pour 0 elle est vraie pour son successeur, 1. 
Mais puisque P est vraie pour 1 elle est vraie pour son successeur, done elle est vraie 
pour 2. II est clair que ce raisonnement se poursuit sans probleme pour tout nombre 
entier fixe a l'avance. 

C'est ce principe que nous avons utilise pour resoudre le probleme des tours de 
Hanoi : 

1. nous avons montre que nous savions le resoudre pour 0 disque ; 

2. nous avons montre qu'en sachant le resoudre pour n — 1 disques nous savions le 
resoudre pour n disques. 

Ces deux cas correspondent exactement aux deux clauses de la fonction hanoi (cas 0 -> 
et cas n ->). Le principe de recurrence nous prouve done que nous savons effectivement 
resoudre le probleme pour tout n, meme si cela ne nous apparaissait pas clairement au 
depart. 

La difficulty intuitive de ce genre de definitions recursives est d'oser utiliser 
Phypothese de recurrence : il faut supposer qu'on sait deja faire pour n — 1 disques et 
ecrire le programme qui resout le probleme pour n disques. Dans la procedure hanoi, 
on suppose ainsi deux fois que la fonction saura bien faire toute seule pour n — 1 
disques et Pon ne s'occupe que de deplacer le gros disque, ce qui semble un travail 
facile. Finalement, on a Pimpression de voir tourner du code que Pon n'a pas ecrit, 
tellement il semble astucieux a P execution. 

L'ecriture de fonctions recursives se reduit ainsi tres souvent au schema : 
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let rec f = function 

I 0 -> « solution simple » 

I n -> ... f (n - 1) ... f (n - 1) . . .;; 

On demontre en mathematiques qu'il n'est pas interdit d'appeler f sur d'autres argu- 
ments que n - 1, pourvu qu'ils soient plus petits que n (par exemple n - 2), mais 
alors il faut prevoir d'autres cas simples (par exemple 1 ->). Un exemple de ce schema 
de programme est la fonction de Fibonacci definie par : 

# let rec fib = function 

I 0 -> 1 

I 1 -> 1 

I n -> fib (n - 1) + fib (n - 2) ; ; 

fib : int -> int = <fun> 

# fib 10; ; 

- : int = 89 

Remarquez que cette fonction fait effectivement deux appels recursifs sur deux valeurs 
differentes, mais toutes les deux plus petites que l'argument donne. 

Complexite de la procedure hanoi 

II est facile d'ecrire un programme qui compte le nombre de mouvements necessaires 
pour resoudre le jeu pour n disques : il y a 0 mouvement a faire pour 0 disque, l'appel a 
la procedure mouvement produit 1 mouvement et le nombre de mouvements necessaires 
aux appels recursifs est forcement compte par la fonction recursive de comptage que 
nous sommes en train de definir. En effet, on suppose une fois de plus que pour n — 1 
la fonction « sait faire » et on se contente de trouver le resultat pour n. 

# let rec compte_hanoi depart milieu arrivee = function 

I 0 -> 0 

I n -> compte_hanoi depart arrivee milieu (n - 1) + 1 + 
compte_hanoi milieu depart arrivee (n - 1) ; ; 
compte_hanoi : ' a. -> ' a -> ' a -> int -> int = <fun> 

Les arguments contenant les noms des tiges sont bien sur inutiles et il suffit d'ecrire : 

# let rec compte_hanoi_naif = function 

I 0 -> 0 

I n -> compte_hanoi_naif (n - 1) + 1 + compte_hanoi_naif (n - 1) ; ; 
compte_hanoi_naif : int -> int = <fun> 

qu'on simplifie encore en 

# let rec compte_hanoi = function 

I 0 -> 0 

I n -> (2 * compte_hanoi (n - 1)) + 1;; 
compte_hanoi : int -> int = <fun> 

# compte_hanoi 3;; # compte_hanoi 10;; # compte_hanoi 16;; 

- : int =7 - : int = 1023 - : int = 65535 

On devine la propriete suivante: pour tout n, compte_hanoi (n) = 2™ — 1. Nous allons 
la demontrer en utilisant le principe de recurrence. Nous defmissons done formellement 
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la propriete P par: P(n) est vraie si et seulement si compte_hanoi (n) = 2 n — 1. La 
proposition P(0) est vraie car compte_hanoi (0) = 0 et 2° — 1 = 1 — 1 = 0. Supposons 
P(n) vraie et montrons qu'alors P(n + 1) est vraie. Pour montrer P(n + 1), il faut 
demontrer 

comptejianoi ( n + 1) = 2 n+1 - 1. 
Or, d'apres la definition de la fonction compte_hanoi, on a: 

compte_hanoi (n + 1) = 2 x compte_hanoi ((n + 1) — 1) + 1, 

soit compte_hanoi (n + 1) = 2 x compte_hanoi (n) + 1. Mais, par hypothese de 
recurrence, P(n) est vraie, done compte_hanoi (n) = 2 n — 1. En reportant dans l'egalite 
precedente, on obtient : 

compte_hanoi (n + 1) = 2 x (2 n - 1) + 1. 

Mais 2 x (2 n - 1) + 1 = 2 n+1 - 2 + 1 = 2 n+1 - 1, done 

compte_hanoi (n + 1) = 2" +1 - 1 

et P(n + 1) est vraie. II s'ensuit, d'apres le principe de recurrence, que P(n) est vraie 
pour tout n. 

Avec ce nouveau result at, nous sommes autorises a redefinir compte_hanoi comme 
la fonction qui a n associe 2 n — 1. Pour avoir une idee du nombre de mouvements 
necessaires pour resoudre le probleme avec 64 disques, nous sommes obliges de faire les 
calculs en « virgule flottante » car le resultat excede de beaucoup la limite superieure des 
entiers representables en Caml. Nous reviendrons plus tard sur les nombres en virgule 
flottante, aussi appeles nombres flottants (chapitre 8). Pour l'instant il suffit de savoir 
qu'un nombre flottant est caracterise par le point qui precede sa partie decimale et que 
les operations associees aux flottants sont suffixees egalement par un point (+ . , - . , * . , 
etc.). Nous implementons done notre fonction en utilisant la fonction « puissance » des 
nombres flottants (power). 

# let compte_hanoi_rapide n = power 2.0 n -. 1.0;; 
compte_h.acaoi_ra.pide : float -> float = <fun> 

# compte_hanoi_rapide 64.0;; 

- : float = 1.84467440737e+19 

Un algorithme correct mais inutilisable 

Grace a notre demonstration mathematique, nous avons etabli une formule de cal- 
cul direct du nombre de mouvements necessaires a la resolution du jeu pour n disques. 
Nous avons ainsi tres fortement accelere la fonction compte_hanoi. C'etait indispens- 
able car notre premiere version, la fonction compte_hanoi_naif , quoique parfaitement 
correcte d'un point de vue mathematique, n'aurait pas pu nous fournir le resultat pour 
64. En effet cette version calcule son resultat en utilisant uniquement l'addition. Plus 
precisement, elle n'ajoute toujours que des 1 : il lui aurait done fallu faire 2 64 — 1 ad- 
ditions. Meme en supposant qu'on fasse 1 milliard d'additions par seconde, ce qui est 
a la limite de la technologie actuelle, il aurait fallu, avec le programme de la premiere 
version de compte_hanoi, 
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# let nombre_de_secondes_par_an = 3600.0 *. 24.0 *. 365.25;; 
nombre_de_secondes_par_an : float = 31557600 . 0 

# let nombre_d'additions_par_an = nombre_de_secondes_par_an *. 1E9;; 
nombre_d ' additions_par_an : float = 3. 15576e+16 

# compte_hanoi_rapide 64.0 /. nombre_d'additions_par_an; ; 

- : float = 584.542046091 

c'est-a-dire plus de 584 annees pour achever le calcul ! Nous sommes done ici en presence 
d'une fonction qui donne effectivement le bon resultat au sens des mathematiques, 
mais qui le calcule tellement lentement qu'elle devient inutilisable. A la difference des 
mathematiques, il ne suffit done pas en informatique d'ecrire des programmes corrects, 
il faut encore que leur complexite ne soit pas trop elevee pour qu'ils calculent le resultat 
correct en un temps raisonnable. 

La fonction compte_hanoi_naive necessite 2 n — 1 additions pour l'argument n. Son 
temps de calcul est done proportionnel a une puissance (2 n ) dont l'exposant est son 
argument n : l'algorithme est exponentiel. La seconde version utilisant la multiplication 
necessite n multiplications, l'algorithme est done lineaire. Un algorithme lineaire de- 
mande un temps de calcul qui augmente comme la valeur de son argument (O(n)), ce 
qui est raisonnable. En efFet, cette version nous aurait permis d'obtenir notre resultat, 
puisque pour n = 64 il aurait fallu 64 multiplications seulement. La derniere version, 
quant a elle, est en temps constant. Elle ne necessite que deux operations flott antes quel 
que soit son argument : e'est l'algorithme ideal. On retiendra qu'un algorithme expo- 
nentiel est vite susceptible d'exiger un temps de calcul prohibitif quand son argument 
augmente. 

Date de la fin du monde 

Calculons le nombre d'annees necessaires aux moines pour achever leur jeu a 64 
disques. Supposons qu'ils puissent effectuer sans arret, jour et nuit, dix mouvements 
par secondes, ce qui est vraiment le maximum qu'on puisse exiger de ces pauvres moines. 
II leur faudrait alors : 

# let nombre_de_mouvements_par_an = 

nombre_de_secondes_par_an *. 10.0;; 
nombre_de_mouvements_par_an : float = 315576000 . 0 

# compte_hanoi_rapide 64.0 /. nombre_de_mouvements_par_an; ; 

- : float = 58454204609.1 

soit plus de 58 milliards d'annees. C'est beaucoup plus que la duree de vie estimee du 
Soleil. II semble done que l'heure de la fin du monde aura sonne tres longtemps avant 
la fin du jeu ! 

Calcul de la complexite de la seconde version 

Dans la section precedente, nous avons affirme que la seconde version de 
compte_hanoi : 

# let rec compte_hanoi = function 

I 0 -> 0 

I n -> 2 * compte_hanoi (n - 1) + 1;; 
compte_hanoi : int -> int = <fun> 



36 



Recursivite 



necessitait n multiplications. La demonstration en est tres simple. Nous noterons 
Op(compte_hanoi (n)) le nombre cooperations necessaires pour effectuer le calcul 
de compte_hanoi (n) a l'aide de cette version de compte_hanoi. Nous demontrons 
par recurrence la propriete P(n) definie par : P(n) est vraie si et seulement si 
Op(compte_hanoi (n)) = n. La propriete P(0) est vraie car Op(compte_hanoi (0)) = 0. 
Supposons P(n) vraie et montrons qu'alors P(n + 1) est vraie. Pour montrer P(n + 1), 
il faut demontrer Op(compte_hanoi (n + 1)) = (n + 1). Or, d'apres le code de 
la fonction compte_hanoi, quand on a le resultat de compte_hanoi (n - 1), il 
faut faire une multiplication de plus pour obtenir compte_hanoi (n). On a done: 
Op(compte_hanoi (n + 1)) = 1 + Op(compte_hanoi (n)) ; mais, d'apres l'hypothese de 
recurrence, Op(compte_hanoi (n)) = n, et done Op(compte_hanoi (n + 1)) = n + 1. II 
s'ensuit que P(n) est vraie pour tout n. 

Remarquons pour finir que nous avons calcule la complexite de hanoi en utilisant 
la fonction compte_hanoi, dont nous avons du a nouveau etudier la complexite, pour 
l'optimiser (sous peine de ne pas obtenir effectivement la complexite de hanoi). II faut 
decidement reflechir sur les programmes qu'on ecrit . . . 
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Ou Von apprend que 2x + 2x font Ax. 

Ml 

OUS METTONS EN PLACE dans ce chapitre quelques outils indispensables a la pro- 
grammation imperative. En particulier, nous introduisons la notion de tableau, 
et l'utilisons pour calculer des identites remarquables. Nous serons par exemple 
en mesure d'etablir par programme la formule (x + l) 2 = x 2 + 2x + 1. En termes sa- 
vants nous ferons du calcul formel sur des polynomes a une indeterminee. Si vous savez 
deja qu'il y a autre chose dans la vie que la programmation fonctionnelle et que vous 
connaissez les boucles «for» et « while », vous pouvez sauter ce chapitre. 



3.1 La programmation imperative 

Jusqu'a present, nous avons ecrit de petits programmes dans un sous-ensemble de 
Caml: la partie declarative, la plus proche des mathematiques. Nous avons toujours 
defini des fonctions qui retournaient le result at que nous voulions calculer. Ces fonc- 
tions calculent le resultat souhaite au sens des calculs mathematiques, c'est-a-dire par 
simplifications successives d'une expression. Ce style de programmation a l'aide de 
fonctions s'appelle la programmation fonctionnelle. 

Une autre fagon de calculer consiste a considerer qu'un calcul est un processus 
evolutif, ou le temps a son importance. II s'agit de modifier un etat: l'ordinateur com- 
mence l'execution du programme dans un certain etat initial, que l'execution du pro- 
gramme modifie jusqu'a parvenir a un etat final qui contient le resultat voulu. On 
change Petat courant par modification du contenu de la memoire de l'ordinateur (a 
l'aide d' affectations) , ou encore par interaction avec le monde exterieur : interrogation 
de l'utilisateur, affichage de resultats, lecture ou ecriture de fichiers, bref tout ce qu'on 
nomme les entrees-sorties. Toutes ces operations qui modifient physiquement le contenu 
des adresses memoire sont appelees effets (ou encore effets de bord) : 

Un effet est une modification d'une case de la memoire (tableau ou 
reference), ou encore une interaction avec le monde exterieur (impression 
ou lecture). 



38 



Programmation imperative 



Ce style de programmation par effets s'appelle la programmation imperative. Ce nom 
provient evidemment de la signification du mode imperatif dans la conjugaison des 
verbes. En effet, les programmes imperatifs decrivent explicitement a la machine la 
suite des operations a effectuer (fais ci, fais ga). Au contraire, en programmation fonc- 
tionnelle, on laisse la machine calculer le resultat comme elle le peut a partir d'une for- 
mule, sans lui preciser completement l'ordre dans lequel elle doit operer. Par exemple, 
pour calculer le carre d'un nombre x, on ecrit x * x en programmation fonctionnelle. 
Au contraire, une methode imperative serait de reserver une case memoire comme ac- 
cumulateur, de l'initialiser avec x, puis de remplacer le contenu de cet accumulateur 
par son contenu multiplie par lui-meme. Le resultat cherche serait maintenant dans 
Paccumulateur. Dans un cas si simple, ces descriptions sont evidemment caricaturales, 
mais l'idee est la bonne. 

Le style imperatif implique la modification de l'etat de la memoire, done l'utilisation 
de structures de donnees modifiables (par exemple les tableaux dont les elements peu- 
vent etre changes dynamiquement) et l'emploi de commandes. Les commandes sont des 
expressions qui ne retournent pas de valeurs interessantes ; leur resultat est simplement 
une modification de l'etat courant, e'est-a-dire un effet. Lorsqu'une fonction se contente 
d'executer une serie de commandes, on l'appelle souvent procedure. Une procedure en 
Caml est done simplement une fonction qui se contente de faire des effets, sans produire 
de resultat au sens mathematique. 

Nous aurions pu nous cantonner au sous-ensemble fonctionnel de Caml et cependant 
ecrire de tres jolis programmes. Mais e'eut ete donner une fausse image de Caml : ce qui 
fait la puissance du langage e'est justement qu'il ne se limite pas a la programmation 
fonctionnelle, mais integre harmonieusement programmation fonctionnelle et program- 
mation imperative. De plus, nous cherchons avant tout a vous montrer les programmes 
les plus simples et les plus clairs possibles : nous avons done besoin de tous les outils 
que Caml met a notre disposition. 

De surcroit, la programmation imperative n'est pas seulement indispensable pour 
traiter les problemes d'interaction avec le monde exterieur (entrees-sorties). Dans cer- 
tains cas un algorithme, e'est-a-dire une methode de resolution d'un probleme, exige 
moins de calculs lorsqu'il est ecrit en style imperatif que lorsqu'il est ecrit en style fonc- 
tionnel. Enfin, certains algorithmes s'expriment naturellement en termes devolution 
d'un etat ; la programmation imperative s'impose alors. 

Nous avons pour l'instant illustre les effets d'entrees-sorties, plus precisement les 
impressions. Nous allons maintenant faire des effets sur la memoire, ce qu'on appelle 
aussi des modifications physiques ou modifications en place de donnees. Pour cela il nous 
faut disposer de cases memoire modifiables par le programme. Caml propose pour cela 
les notions de references et de tableaux. Nous commengons par etudier les tableaux, qui 
sont plus simples. 

Puisque la notion de temps intervient en programmation imperative, il nous faut un 
moyen de specifier au langage « fait ceci d'abord » et « fait cela ensuite » : e'est la notion 
de sequence que nous avons deja vue au chapitre 1. Nous avons egalement besoin de 
repeter des suites d'effets : e'est la notion de boucles. Nous decrivons ces construction, 
puis appliquons ces outils au calcul sur les polynomes. 
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3.2 Boucles 

Caml fournit deux sortes de boucles pour repeter des effets : la boucle « pour » et 
la boucle «tant que». La boucle «pour» repete un calcul un nombre de fois fixe a 
l'avance ; la boucle « tant que » repete un calcul tant qu'une condition reste vraie. 

Boucle « tant que » 

Boucle « tant que » ::= while expression (while : tant que) 

do expression done (do : faire, done : fait) 

La signification de while condition do actions done est simplement de faire les actions 
tant que la condition est vraie. La condition est testee au debut de chaque iteration. Si 
elle est initialement fausse, les actions ne sont jamais executees. Dans certains cas, la 
boucle «tant que» sert a repeter indefiniment les memes actions jusqu'a un evenement 
exceptionnel. Dans ce cas, la condition de boucle est tout simplement le booleen true, 
comme dans while true do actions done. 

Boucle «pour» 

Boucle «pour» ::= for ident = expression (for: pour) 

(to | downto) expression (to : jusqu'a, down : en bas) 
do expression done (do : faire, done : fait) 

La semantique, c'est-a-dire la signification, de l'expression for i = debut to fin do 
actions done est de faire les actions avec i = debut, puis avec i = debut + 1 et ainsi de 
suite, jusqu'a i = fin. En particulier, si debut > fin, on n'evalue jamais actions. Pour la 
version downto, on decremente l'indice de boucle i (on lui soustrait 1) a chaque tour, 
au lieu de l'incrementer (lui ajouter 1). L'indice de boucle est forcement du type entier. 
Le nom associe a l'indice de boucle est introduit par la boucle (comme par une liaison 
let) ; sa liaison n'est valide que pendant le corps de la boucle. Prenons un exemple 
simple : nous imprimons les dix chiffres a l'aide d'une boucle de 0 a 9. Nous definissons 
une procedure imprime_chif f re dont l'argument est «rien», et nous la declenchons 
en Pappliquant a «rien». 

# let imprime_chif f res () = 

for i = 0 to 9 do 

print_int i 
done ; 

print_newline () ; ; 
imprime_chiffres : unit -> unit = <fun> 

# imprime_chif f res ();; 
0123456789 

- : unit = () 
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3.3 Manipulation de polynomes 

Nous continuons l'apprentissage de la programmation imperative par 1 'etude des 
tableaux. A titre d'illustration, nous ecrivons un jeu de fonctions qui implementent les 
operations de base sur les polynomes. Avant de nous lancer dans la programmation, 
nous rappelons brievement ce que sont les polynomes. 

Les polynomes a une indeterminee 

Des classes elementaires, on retient souvent qu'un polynome est une somme de 
puissances de x. Par exemple, p = x 2 + 2x+3 est un polynome. La variable x est appelee 
l'indeterminee du polynome. Un polynome est une somme de termes elementaires qu'on 
nomme monomes (par exemple x 2 et 2x). Etant donnee une variable x, on appelle 
monome de coefficient ctj et de degre i l'expression ctjx\ Le degre d'un polynome est 
celui de son monome de plus haut degre. On rappelle que x 1 = x et x° = 1. Le monome 
de degre 0 est done reduit a une constante (e'est 3 pour p) et celui de degre 1 au 
produit d'un nombre par l'indeterminee (e'est 2x pour p). D'autre part, nous utiliserons 
la propriete : pour tout n et m entiers positifs, x n x x m = x n+m . 

Nous modelisons les polynomes a l'aide de tableaux d'entiers : le tableau des coef- 
ficients de leurs monomes. Les degres seront done implicites, simplement determines 
par l'indice du coefficient dans le tableau qui represente le polynome. Par exemple, le 
polynome p = x 2 + 2x + 3 sera represente par le tableau contenant les nombres 3,2,1 
dans cet ordre, puisque 3 est le coefficient de degre 0 de p, 2 est le coefficient de degre 1 
et 1 le coefficient de degre 2. Nous etudions done maintenant brievement les tableaux 
de Caml. 

Tableaux 

Les tableaux, aussi appeles «vecteurs», sont des suites finies et modifiables de 
valeurs d'un meme type. Leur type est note 'a vect (ou 'a signifie «n'importe quel 
type»). Puisque les elements des tableaux sont tous de la meme nature (du meme 
type), on qualifie les tableaux de suites homogenes de valeurs. Les valeurs d'un tableau 
sont enregistrees dans des cellules de memoire consecutives. Les positions des elements 
dans un tableau debutent a la position 0. 

Construction de tableaux 

Un tableau se definit de deux facons : soit en dressant directement la liste de ses 
elements, soit en creant le tableau et en remplissant ses cases ulterieurement. Si un 
tableau est defini par la liste de ses elements, cette liste est entourees des symboles [ I 
et I ] , tandis que les elements sont separes par des « ; ». Notre polynome p = x 2 + 2x + 3 
se definit done par la phrase : 

# let p = [| 3; 2; 1 |] ;; 
p : int vect = [13; 2; 11] 

Graphiquement, on represente naturellement les tableaux par une succession de 
cases. Par exemple, p sera represente ainsi : 
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indices 

Pour construire des tableaux dont on remplira les cases plus tard, on dispose de la 
fonction predefmie make_vect. Avec cette fonction, on cree un tableau en donnant sa 
taille et un element qui sera mis au depart dans toutes les cases du tableau : la valeur 
d'initialisation du tableau. Definissons par exemple un tableau de taille 4 contenant des 
2 et un tableau de taille 3 contenant la chaine "Bon jour" : 

# let q = make_vect 4 2;; 

q : int vect = [12; 2; 2; 21] 

# let r = make_vect 3 "Bonjour";; 

r : string vect = [/"Bonjour"; "Bonjour"; "Bonjour"!] 

La taille d'un tableau s'obtient en appelant la primitive vect_length. 

# vect_length q; ; 
- : int = 4 

Une fois le tableau cree, on peut consulter et modifier le contenu de ses cases. Si t est 
un tableau et n un entier, t. (n) designe l'element d'indice n du tableau t. 

t 



T 

t.CO) 



T 

t. (n) 



T 

t. (vect_length(i)-l) 



# let aO = p. (0) ; ; 
aO : int = 3 

On affecte la valeur v a la case n du tableau t par la construction t. (n) <- v. Cela 
correspond graphiquement a : 



t 



J 

i.(0) 



i.(n-l) 



t. (n+ 1) 



T 

t. (vect_length(t)-l) 



La valeur retournee par cette construction est (), la valeur «rien». 

# q.(0) <- 1;; 

- : unit = () 

# q; ; 

- : int vect = [U; 2; 2; 21] 

# r.(l) <- "tout"; r.(2) <- "le monde ! " ; ; 

- : unit = () 

# r; ; 

- : string vect = [I "Bonjour" ; "tout"; "le monde! "I] 

Nous savons maintenant definir des tableaux, en lire et modifier les elements. II 
nous faut encore apprendre a les parcourir. C'est tres facile en utilisant les boucles que 
nous avons decrites a la section precedente. Puisqu'il s'agit de parcourir un tableau, 
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on connait a l'avance le nombre de repetitions: on utilise done une boucle «pour». 
Le parcours complet d'un tableau t s'effectue par une boucle commencant en 0 et 
finissant en vect_length t - 1. En effet, puisque les indices d'elements de tableaux 
commencent toujours a 0, le dernier element d'un tableau a pour indice la longueur du 
tableau moins un. Par exemple : 

# for i = 0 to vect_length r - 1 do 

print_string r.(i) 
done ; ; 

Bonjourtoutle monde ! - : unit = () 

Pour rendre la sortie plus jolie, il suffit d'ajouter un blanc apres chaque element : 

# for i = 0 to vect_length r - 1 do 

print_string r.(i); 
print_string " " 
done ; ; 

Bonjour tout le monde! - : unit = () 

Syntaxe des tableaux 

Pour memoire, voici la syntaxe BNF correspondant a ces deux constructions et a la 
definition des tableaux sous la forme de liste d'elements. 
La syntaxe des definitions de tableaux est la suivante : 

Tableaux ::= [| expression ( ; expression)* |] 

Nous utilisons ici un nouveau symbole pour la description des constructions syntax- 
iques qui acceptent les repetitions: l'etoile «*». La formule quelque- chose* signifle 
la repetition de quelque-chose un nombre quelconque de fois, y compris zero fois si 
necessaire (ce qui correspond alors a ignorer completement quelque-chose). Nous in- 
diquons ainsi que le premier element du tableau est eventuellement suivi d'autres 
elements, en nombre quelconque, separes par des points-virgules. 

La syntaxe de Paffectation et de l'acces aux elements de tableaux est la suivante : 

Acces dans un tableau ::= vect . ( indice ) 
Modification d'un element de tableau ::= vect . ( indice ) <- expression 

Attention a la signification des parentheses dans cette description. Elles font ici partie 
de la syntaxe decrite (il faut les ecrire dans les programmes), alors que dans la notation 
( ; expression)* , les parentheses nous servaient a regrouper les constructions syntax- 
iques « ; » et « expression». (La difference de nature des parentheses se traduit par un 
changement de police de caracteres.) 

3.4 Impression des polynomes 

Nous savons maintenant representer les polynomes a l'aide des tableaux. Pour les 
manipuler, nous savons parcourir leurs coefficients a l'aide d'une boucle for. Nous pou- 
vons done commencer l'implementation des operations elementaires sur les polynomes. 

Commengons par ecrire une procedure d'impression des polynomes pour visualiser 
simplement nos resultats. II suffit de parcourir le tableau representant le polynome 
en imprimant ses monomes. Nous ecrivons done d'abord la fonction d'impression d'un 
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monome de coefficient c et de degre d. C'est tres simple : si le degre est 0, il suffit 
d'ecrire le coefficient ; sinon, on ecrit le coefficient et le degre sous la forme cX~d. Par 
exemple, 3x 2 sera ecrit 3x~2. Cet imprimeur n'est pas tres elabore : il se contente de 
ne pas ecrire les monomes mils ni les coefficients egaux a 1 ; il traite aussi specialement 
le cas particulier des monomes de degre 0 et 1. Ainsi il ecrit x~2 pour le monome lx 2 , 
3 pour le monome 3x° et 4x pour le monome Ax 1 . 

# let imprime_mon6me coeff degre = 

if degre = 0 then print_int coeff else 
if coeff <> 0 then 
begin 

print_string " + " ; 

if coeff <> 1 then print_int coeff ; 

print_string "x" ; 

if degre <> 1 then 

begin print_string print_int degre end 

end; ; 

imprime_mondme : int -> int -> unit = <fim> 

La primitive <> correspond au predicat mathematique ^ et teste done si deux valeurs 
sont differentes. 

II est temps de donner le nom technique des polynomes modelises par des 
tableaux d'entiers : on les appelle polynomes pleins, ce qui signifie simplement que leur 
representation comporte la liste exhaustive de leurs monomes, y compris ceux dont 
le coefficient est nul. C'est pourquoi nous appelons la fonction d'impression de ces 
polynomes imprime_polynome_plein. Cette fonction se contente d'iterer la procedure 
imprime_mon6me sur tout le polynome, a l'aide d'une boucle «pour». 

# let imprime_polynome_plein p = 

for i = 0 to vect_length p - 1 do imprime_mon6me p.(i) i done;; 
imprime_polyndme_plein : int vect -> unit = <fun> 

Le polynome p = x 2 + 2x + 3 s'imprime comme suit : 

# imprime_polyn6me_plein p; ; 
3 + 2x + x~2- : unit = () 

Addition des polynomes 

L'addition des polynomes se fait monome par monome, en ajoutant les coefficients 
des monomes de meme degre : 

(1 + 2x + 3x 2 ) + (4 + 5x + 6x 2 ) = (1 + 4) + (2 + 5)x + (3 + 6)x 2 

= 5 + 7x + 9x 2 . 

Mathematiquement, on a : si P = po + p\x + P2X 2 + • • • + p m x m et Q = qo + q±x + 
q 2 x 2 + • • • + q n x n , alors 

P + Q=<J*o + qo) + (pi + qi)x + (p2 + Q2)x 2 + ■■■ + (p max(m , n) + g ma x( m ,n))^ max(m ' n) 

Cette definition utilise la convention qu'un coefficient de degre superieur au degre du 
polynome est implicitement 0. On peut exprimer ces formules de fagon plus synthetique 
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en introduisant la notation mathematique E pour resumer les sommes de termes : si 
formule est une expression qui depend de l'entier i, on note 

n 

formule (i) pour formule (0) + formule (1) + • • • + formule (n). 

i=o 

(La notation J2?=o f ormu ^ e (*) se n ^ «somme de z egale 0 a n de formule(i)».) Par 
exemple, si la formule est reduite a i, on obtient la somme des nombres de 0 a n : 

n 

= 0+1H h n. 

i=0 

De meme, si la formule est i 2 , la somme correspondante est celle des carres des nombres 
entre 0 et n : 

n 

J^i 2 = 0 2 + l 2 + --- + n 2 . 

i=0 

On exprime ainsi de maniere tres concise deux polynomes generaux P et Q et leur 
somme P + Q : 

m n max(m,n) 

Si P = J2PiX l et Q = ^2q iX l alors P + Q = ^ (p, + x l . 

i=0 i=0 i=0 

La traduction en Caml de cette definition est tres simple : on cree d'abord un tableau 
somme, pour contenir la somme des deux polynomes P et Q. Ce tableau a pour longueur 
le maximum des longueurs de P et Q, qu'on calcule avec la fonction predefinie max. II 
sufBt de recopier les coefficients de l'un des polynomes dans les cases du resultat, puis 
d'y ajouter les coefficients de l'autre. 

# let ajoute_polynomes_pleins p q = 

let somme = make_vect (max (vect_length p) (vect_length q) ) 0 in 
for i = 0 to vect_length p - 1 do 

somme. (i) <- p. (i) 
done ; 

for i = 0 to vect_length q - 1 do 

somme. (i) <- somme. (i) + q. (i) 
done ; 
somme ; ; 

ajoute_polyndmes_pleins : int vect -> int vect -> int vect = <fun> 
Comme promis, nous pouvons maintenant calculer la valeur de 2x + 2x: 

# imprime_polynome_plein (ajoute_polynomes_pleins [|0; 2|] [|0; 2|]);; 
0 + 4x- : unit = () 

et verifier un de nos calculs precedents : 

# imprime_polynome_plein 

(ajoute_polynomes_pleins [|1; 2; 31] [|4; 5; 6|]);; 
5 + 7x + 9x~2- : unit = () 

et meme (qui l'eut cru ?) calculer x — x et trouver 0 : 

# imprime_polynome_plein 

(ajoute_polynomes_pleins [|0; 1|] [|0; -1|]);; 
0- : unit = () 
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Multiplication des polynomes 

On definit le produit des polynomes en utilisant les regies classiques de 
developpement des expressions algebriques. En termes savants, on dit que Ton 
utilise la distributivite de la multiplication par rapport a l'addition. Par exemple, pour 
tout polynome Q, on a (1 + 2x + 3x 2 ) xQ = lxQ + 2xxQ + 3x 2 x Q, et done 

(1 + 2x + 3x 2 ) x (4 + 5x + 6x 2 ) 
= 1 x (4 + 5x + 6x 2 ) + 2x x (4 + 5x + 6x 2 ) + 3x 2 x (4 + 5x + 6x 2 ) 
= (4 + 5x + 6x 2 ) + (8x + 10x 2 + 12x 3 ) + (12x 2 + 15x 3 + 18x 4 ) 
= 4 + 13x + 28x 2 + 27x 3 + 18x 4 . 

La remarque fondamentale est que le produit des coefficients des monomes de degre i du 
premier polynome et de degre j du second forme une partie du coefficient du monome 
de degre i + j du produit. Par exemple, pour les monomes 2x et 6x 2 , le produit 2x6 
entrera dans la composition du coefficient du monome de degre trois du resultat, ce 
qui signifie simplement que 2x x 6x 2 = 12x 3 . Pour prendre en compte le produit des 
monomes 2x et 6x 2 dans le resultat final, il suffit done d'ajouter le produit 2x6 dans la 
case correspondant au coefficient de x 3 du resultat final. Ainsi, notre procedure Caml 
va parcourir les monomes des deux polynomes deux a deux, en les multipliant et en 
enregistrant le produit de leurs coefficients dans le monome de degre correspondant du 
produit. 

Pour les fanatiques des formules, ceci se traduit par la definition mathematique 
suivante : 

m n 

Le produit des deux polynomes P = V] pi X 1 et Q = V] qj X J 

i=0 j=0 

m+n 

est le polynome (P x Q) = rkX k avec = p« x ^, 

fc=0 i+j=k 
m+n / k \ 

ou de facon equivalente, (P x Q) = ^^P i x < ^ k ~ i ^ ' 

k=0 Vi=0 / 

Remarquez que ces formules d'apparence rebarbative ne font que resumer de fagon tres 
succinte notre explication en francais, mais en aucun cas ne la rendent inutile. 

Pour coder la multiplication des polynomes en Caml, le plus difficile est de cal- 
culer la longueur du tableau resultat. On sait cependant que le monome de plus 
haut degre du resultat a pour degre la somme des degres des monomes de plus haut 
degre des polynomes multiplies. Or, le degre du monome de plus haut degre d'un 
polynome represente par un tableau v de longueur I est I — 1. C'est done, en Caml, 
vect_length(u) — 1. Par exemple, le polynome p = x 2 + 2x + 3, est represente par 
un tableau a trois cases et son monome de plus haut degre est de degre 2. Mais le 
monome de degre maximum du produit des polynomes p et q a pour degre la somme 
des degres des monomes de degre maximum de p et q, soit (vect_length(p) — 1) + 
(vect_length((/) — 1). On en deduit facilement que le tableau representant pxqa, pour 
longueur vect_length(p) + vect_length(q) — 1. 

Le programme Caml est bien plus court que ces explications : 
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# let multiplie_polyn6mes_pleins p q = 

let produit = make_vect (vect_length p + vect_length q - 1) 0 in 
for i = 0 to vect_length p - 1 do 

for j = 0 to vect_length q - 1 do 

produit. (i + j) <- p.(i) * q-(j) + produit. (i + j) 

done 
done; 
produit ; ; 

multiplie_polyndmes_pleins : int vect -> int vect -> int vect = <fun> 

Notre programme effectue sans peine le produit des polynomes (1 + 2x + 3x 2 ) et 
(4 + 5x + 6x 2 ) que nous avions precedemment calcule a la main. 

# imprime_polyn6me_plein 

(multiplie_polynomes_pleins [|1; 2; 3|] [I 4; 5; 6|]);; 
4 + 13x + 28x~2 + 27x~3 + 18x~4- : unit = () 

Comme exemple plus consistant, calculons (x + 1) puis (x + l) 4 et (x + l) 8 . 

# let p = [| 1; 1|] in 

let p2 = multiplie_polynomes_pleins p p in 
let p4 = multiplie_polynomes_pleins p2 p2 in 
let p8 = multiplie_polynomes_pleins p4 p4 in 
print_string " (x +1) ** 2 = " ; 

imprime_polynome_plein p2; print_newline () ; 
print_string " (x +1) ** 4 = " ; 

imprime_polynome_plein p4; print_newline () ; 
print_string " (x +1) ** 8 = " ; 

imprime_polynome_plein p8; print_newline ();; 
(x + 1) ** 2 = 1 + 2x + x~2 
(x + 1) ** 4 = 1 + 4x + 6x~2 + 4x~3 + x~4 

(x + 1) ** 8 = 1 + 8x + 28x~2 + 56x~3 + 70x~4 + 56x~5 + 28x~6 + 8x~7 + x~8 
- : unit = () 



3.5 Caracteres et chaines de caracteres 

En Caml les chaines de caracteres sont considerees comme des structures de 
donnccs physiqucmcnt modifiables : les chaines se comportent essentiellement comme 
des tableaux de caracteres. On beneficie ainsi d'un acces direct aux caracteres et de la 
possibilite de modifier en place les caracteres. La syntaxe de l'affectation et de Faeces 
aux caracteres des chaines est similaire a celle des tableaux, avec des crochets [ . . . ] a 
la place des parentheses (...): 

Acces dans une chaine s ::= s . [ indice ] 
Modification d'un caractere d'une chaine s ::= s . [ indice ] <- expression 

Comme pour les tableaux, on parcourt done completement une chaine de caracteres 
par une boucle for commencant en 0 et finissant a la longueur de la chaine moins 1, 
e'est-a-dire string_length s — 1. Par exemple, on calcule l'image miroir d'une chaine 
en creant une chaine de meme longueur dont on ecrit tous les caracteres a l'aide d'une 
boucle for : 
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# let rev_string s = 

let 1 = string_length s in 
let res = make_string 1 ' ' in 
for i = 0 to 1 - 1 do 

res. [i] <- s. [1 - 1 - i] 
done; 
res; ; 

rev_string : string -> string = <fun> 

La primitive make_string permet de creer une chaine de caracteres d'une longueur 
donnee et initialisee avec un caractere donne : c'est done l'analogue de make_vect pour 
les chaines de caracteres. 

Au passage, cela donne une autre idee pour ecrire une version simple et lineaire de 
la fonction palindrome de la section 2.1 : 

# let palindrome s = 

let r = rev_string s in 
r = s; ; 

palindrome : string -> bool = <fun> 
et meme encore plus brievement : 

# let palindrome s = rev_string s = s;; 
palindrome : string -> bool = <fun> 



3.6 Les references 

Les references sont des structures de donnees predefmies qui modelisent les cases 
memoire de la machine. La propriete caracteristique des cases memoire est qu'on peut 
les lire et les ecrire : la lecture renvoie leur contenu courant, Pecriture change ce contenu. 
Les cases memoire sont utilisees pour representer des compteurs ou des accumulateurs, 
dont le contenu evolue au cours du calcul. 



Lire et ecrire les cases memoire 

Poursuivant l'analogie avec les cases memoire, vous pouvez vous figurer une reference 
comme une boite (la case memoire) qui contient une valeur : vous pouvez placer quelque 
chose dans la boite (ecriture) , ou demander a ouvrir la boite pour examiner son contenu 
(lecture). Les references sont creees a l'aide de la construction ref (val), ou val est la 
valeur initialement contenue dans la reference. Definissons par exemple un compteur 
qui vaut initialement 0 : 

# let compteur = ref 0;; 
compteur : int ref = ref 0 

La valeur de compteur est done une boite contenant 0, qu'on peut representer ainsi : 



compteur 



Le contenu courant d'une reference est renvoye par Poperateur de dereferencement, 
e'est-a-dire de lecture d'une reference, note « ! ». (II ne faut pas confondre cette notation 
avec Poperateur "factorielle" des mathematiques, que nous avons vu au chapitre 2, et 
qui se place apres son argument ; le ! Caml se place avant son argument.) 
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# ! compteur ; ; 
- : int = 0 



compteur 



0 



On change le contenu d'une reference (ecriture) en utilisant le symbole traditionnel de 
F affectation « : = ». 

# compteur := 2; ; 
- : unit = () 

L'affectation est, graphiquement, l'operation inverse de « ! » : 



Apres l'affectation, le contenu de la boite compteur est done 2. 

# ! compteur; ; 

- : int = 2 

Pour incrementer compteur, nous devons ajouter 1 au contenu courant de la boite: 

# compteur := 1 + ! compteur;; 

- : unit = () 

# ! compteur; ; 

- : int = 3 

Une regie generale en Caml est que tous les objets du langage sont manipulables comme 
des valeurs sans restrictions particulieres : on les passe en parametre et on les rend en 
resultat, au meme titre que les valeurs de base. Les references ne derogent pas a cette 
regie. Nous pouvons done passer des references en parametre et definir une procedure 
qui incremente le contenu de n'importe quelle reference contenant un entier (cette 
procedure est predefinie sous le nom incr dans le systeme Caml, mais nous en ecrivons 
le code a titre d'exemple). La fonction prend une reference c en argument et modifie 
son contenu (c :=...) pour y mettre la valeur courante de la reference plus un (1 + 



# let incremente c = c := 1 + !c;; 
incremente : int ref -> unit = <fun> 

# incremente compteur; ! compteur;; 
- : int = 4 

Les variables imperatives 

Un identificateur lie a une reference se comporte comme les variables des langages 
imperatifs (C, Pascal, Ada), puisqu'on peut modifier a volonte le contenu de la reference. 
La seule difference est qu'en Caml il faut explicitement dereferencer Pidentificateur a 
l'aide de Poperateur ! , pour en obtenir la valeur courante ; la distinction entre Pobjet 
variable et la valeur courante de cet objet est done plus nette. 

Comme nous Pavions annonce a la section 1.3, la definition d'un nom par la con- 
struction let est differente de l'affectation d'une variable. Nous sommes maintenant en 
mesure de comprendre cette difference, en comparant la redefinition d'un identificateur 
par un nouveau let et l'affectation d'un identificateur lie a une reference : 



compteur 
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# let x = 1; ; 
x : int = 1 

# let f y = x + y; ; 

f : int -> int = <fun> 

# let x = 2; ; 
x : int = 2 

# f 0;; 

- : int = 1 



let x = ref 1 ; ; 
int ref = ref 1 



- i 



x + y; 



# 

X 

# let f 
f : int -> int = <fun> 

# x := 2; ; 

- : unit = () 

f 0;; 
: int = 2 



# 



Dans la colonne de gauche, la redefinition de x ne modifie en rien la valeur de x dans le 
corps de la fonction f . En revanche a droite, l'identificateur x est lie a une reference. La 
valeur de ! x dans le corps de f change done evidemment apres 1'afTectation (cependant x 
est toujours lie a la meme valeur : la meme reference). On constate ainsi que les fonctions 
qui utilisent des references non locales sont susceptibles de changer dynamiquement de 
comportement, au gre des affectations des references qu'elles emploient. 



3.7 Un programme utilisant des references 

Un exemple realiste d'utilisation des references nous est fourni par la fonction 
« factorielle », qui retourne le produit des nombres entiers inferieurs ou egaux a son 
argument. Nous en avions donne la definition recursive suivante au chapitre 2 : 



n\ = 



1 si n = 0 

nx(n-l)! sinon. 



Voici une autre definition, dont nous admettrons qu'elle est mathematiquement 
equivalente : 



0! = 1 

n! = 1 x 2 x • • • x (n — 1) x n 



Cette definition avec trois petits points «... » est allusive et se traduit generalement 
par une implementation sur machine a base de boucles et d'accumulateurs. Ainsi, on 
definira une reference pour accumuler les multiplications par les nombres plus petits 
que n, durant l'execution d'une boucle allant de 1 a n. A chaque tour on multiplie le 
contenu actuel de l'accumulateur par l'indice de boucle courant (accu := i * !accu), 
si bien qu'a la fin de la boucle l'accumulateur contient le resultat voulu ; on renvoie 
done son contenu (!accu). 

# let fact n = 

if n = 0 then 1 else 
begin 

let accu = ref 1 in 

for i = 1 to n do accu := i * !accu done; 
! accu 
end; ; 

fact : int -> int = <fun> 
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# fact 10; ; 

- : int = 3628800 

Une petite remarque : on peut supprimer le test if n = 0 sans changer la semantique 
de la fonction. En effet, lorsque n est nul, la boucle s'arrete instantanement, alors que 
la reference accu vaut 1, ce qui est le resultat correct dans ce cas. On obtient plus 
simplement : 

# let fact n = 

let accu = ref 1 in 

for i = 1 to n do accu := i * ! accu done; 
! accu; ; 
fact : int -> int = <fun> 

Cet exemple nous permet de comparer a meilleur escient les styles imperatif et fonc- 
tionnel. En effet, nous avons du indiquer a la machine la suite des operations a effectuer, 
en gerant explicitement les modifications successives du contenu de Paccumulateur 
accu : il s'agit vraiment ici d'un programme de style imperatif. En revanche, souvenez- 
vous de notre precedente implementation recursive de la fonction factorielle : 

# let rec factorielle = function 

I 0 -> 1 

I n -> n * factorielle (n - 1) ; ; 
factorielle : int -> int = <fun> 

Dans ce cas, on a presque l'impression d'avoir recopie la definition mathematique ! 
Vous comprenez aisement que le style imperatif est plus descriptif du calcul a effectuer 
que le style fonctionnel. Le style imperatif decrit comment faire le calcul, tandis que 
le style fonctionnel decrit quoi calculer. On dit que le style fonctionnel est davantage 
declaratif. En effet, en ecrivant la version fonctionnelle de fact, nous n'avons pas decrit 
comment faire : c'est le compilateur qui a gere lui-meme l'enchainement des calculs. 

3.8 Recursivite et boucles 

Cette section montre qu'une definition recursive peut cacher une boucle et qu'on 
peut definir une fonction recursive localement a une autre fonction. Rappelons la 
definition de la fonction epelle : 

# let rec epelle_aux s i = 

if i < string_length s then 
begin 

print_char s . [i] ; print_char ' '; 
epelle_aux s (i + 1) 
end; ; 

epelle_aux : string -> int -> unit = <fun> 

# let epelle s = epelle_aux s 0;; 
epelle : string -> unit = <fun> 

Comme dans le cas des palindromes, si vous estimez que la fonction auxiliaire 
epelle_aux n'a pas d'interet en soi, puisqu'elle ne sert qu'a definir epelle, rien ne 
vous empeche de la definir localement a Pinterieur de la fonction epelle : 
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# let epelle s = 

let rec epelle_aux s i = 

if i < string_length s then 
begin 

print_char s.[i]; print_char 1 
epelle_aux s (i + 1) 
end in 
epelle_aux s 0 ; ; 
epelle : string -> unit = <fun> 

# epelle "Bonjour";; 
Bonjour - : unit = () 

Si l'on remarque alors que la chaine s ne varie jamais pendant les appels a la fonction 
epelle_aux, on la supprime purement et simplement des arguments de epelle_aux (car 
s est liee a Pexterieur de epelle_aux par la fonction epelle). On obtient maintenant 

# let epelle s = 

let rec epelle_aux i = 

if i < string_length s then 
begin 

print_char s.[i]; print_char ' '; 
epelle_aux (i + 1) 
end in 
epelle_aux 0; ; 
epelle : string -> unit = <fun> 

On constate alors que la fonction epelle_aux n'est autre qu'une boucle for 
deguisee : son premier argument est 0, son dernier argument string_length s — 1, 
et epelle_aux augmente l'indice i de 1 a chaque appel recursif. On reecrit done 
facilement epelle avec une boucle for: 

# let epelle s = 

for i = 0 to string_length s - 1 do 

print_char s.[i]; print_char ' ' 
done ; ; 

epelle : string -> unit = <fun> 

# epelle "Caml" ; ; 

C a m 1 - : unit = () 

C'est evidemment le cas aussi pour compte et compte_a_rebours : 

# let compte n = 

for i = 1 to n do print_int i; print_string " " done;; 
compte : int -> unit = <fun> 

# let compte_a_rebours n = 

for i = n downto 1 do print_int i; print_string " " done;; 
compte_a_rebours : int -> unit = <fun> 

# compte 10; compte_a_rebours 10;; 

123456789 10 10 987654321- : unit = () 

On peut done hesiter entre les deux styles de programmation. Chaque fois qu'une 
definition recursive code une boucle for, il faut sans conteste employer une boucle: 
les indices sont en tete de boucle, il n'y a pas besoin de fonction auxiliaire, c'est done 
bien plus clair. En ce qui concerne l'efficacite, il n'est pas clair que l'une des versions 
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soit meilleure que l'autre : tout depend du compilateur. Remarquez en particulier que 
les versions recursives ne font que des appels recursifs terminaux, c'est-a-dire places en 
fin de fonction. Ce genre d'appels recursifs est tres bien optimise par les compilateurs 
Caml, qui les transforment automatiquement en boucles. 

Le processus de reecriture d'une fonction recursive a l'aide de boucles, que nous 
avons vu ici sur des exemples, s'appelle la « derecursivation». Cette operation est sou- 
vent difficile; essayez par exemple de derecursiver la fonction hanoi. A contrario, les 
fonctions recursives permettent d'ecrire facilement les boucles les plus complexes, en 
particulier lorsque la boucle comporte plusieurs sorties possibles ou lorsque l'indice ne 
varie pas de fagon uniforme, ou simplement lorsqu'il faut retourner une valeur signi- 
ficative (differente de ()) a la fin de la boucle. Cependant la recursivite ne se limite 
certainement pas a coder des boucles : c'est un outil extremement puissant, comme vous 
l'avez constate avec le jeu de Hanoi. Nous en verrons encore beaucoup d'exemples non 
triviaux dans la suite. 

3.9 Regie d'extensionnalite 

II nous faut faire ici une remarque importante, que nous utiliserons quelques fois. 
II s'agit d'un exemple de regie de calcul sur les programmes qui permet a l'occasion 
de simplifier les programmes. Ce genre de regies constitue Pequivalent informatique 
des regies de simplification des mathematiques. Cette regie est tres facile : elle stipule 
qu'il est inutile de definir une fonction qui se contente d'en appeler immediatement une 
autre. 

# let successeur x = x + 1;; 
successeur : int -> int = <fun> 

# let succ = function x -> successeur x;; 
succ : int -> int = <fun> 

La fonction succ applique immediatement la fonction successeur a son argument x ; 
elle retournera done forcement toujours les memes valeurs que la fonction successeur : 
c'est la meme fonction que successeur. On dit que la fonction succ est egale a la 
fonction successeur. D'ailleurs, on aurait tres bien pu la definir par: 

# let succ = successeur; ; 
succ : int -> int = <fun> 

Plus generalement on a, 

Pour toute fonction /, function x -> f x est equivalent a / 



De la meme fagon qu'en mathematiques les regies du calcul algebrique permettent de 
remplacer x — x par 0, nous utiliserons la regie precedente pour ecrire successeur au 
lieu du programme function x -> successeur x. Nous aurons ainsi simplifie notre 
programme en utilisant une regie universelle, sans meme avoir besoin de reflechir au 
contenu du programme. 

On se convainc facilement de la validite de la regie precedente en remarquant que 
les deux fonctions retournent toujours le meme resultat quel que soit leur argument. 
En effet, (function x -> f x) (y) s'evalue comme / y (en remplagant x par y dans 
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/ x). On peut egalement considerer que cette regie est la simple traduction de la 
definition mathematique des fonctions : la fonction / est celle qui a tout element x 
de son ensemble de depart fait correspondre son image par /, c'est-a-dire / (x). La 
fonction / est done la correspondance x i— > f(x), e'est exactement ce que traduit la 
regie « f = function x -> f x ». 

Cette regie est appelee « regie d'extensionnalite » ou encore « regie 77 » (la lettre 
grecque rj se prononce «eta»). Quand on remplace / par l'expression plus complexe 
function x -> f x, on dit qu'on fait une ^-expansion. Inversement, quand on sim- 
plifie function x -> f x en /, on fait une 77-contraction. La plupart du temps, nous 
emploierons la regie 77 dans le sens de la simplification (77-contraction) . 

Les conventions syntaxiques de definition et d'application des fonctions se combinent 
avec la regie 77 pour etablir que : 

let g x = f x ; ; est equivalent a let g = f ; ; 

En effet, la convention syntaxique des definitions de fonctions nous permet d'ecrire : 

let g = function x -> f x au lieu de let g x = f x ; ; 

Puis, en appliquant la regie 77, on simplifie function x -> f x en / et Ton obtient : 

let g = f ; ; 

Vous pouvez constater que nous avons ici raisonne sur un petit programme 
independamment de sa signification : on ne sait pas ce que fait / ni pourquoi on 
definit g. C'est une force de connaitre ce genre de raisonnements tres generaux qui 
s'appliquent dans toutes les situations. 

Nous n'irons pas plus loin dans ces considerations un peu complexes et formelles. 
La regie 77 restera notre seule regie de calcul sur les programmes. Son nom grec ne doit 
pas effrayer, car la regie 77 est intuitivement tres naturelle : elle stipule simplement que 
la fonction qui a x associe f(x) est la fonction /, et reciproquement. 

3.10 Effet s et evaluation 

Cette section peut etre sautee en premiere lecture. 

Effets et appels de fonctions 

Avec les effets, nous sortons du monde intemporel des mathematiques pour 
entrer dans un monde qui connait les notions de passe et d'avenir et dans lequel 
Penchevetrement des calculs a son importance. Pour calculer une expression sans effets 
comme 1*2 + 3*4, peu importe l'ordre dans lequel on effectue les calculs : qu'on 
commence par calculer 1 * 2 ou 3 * 4, le resultat est identique. II n'en va pas de 
meme si Ton melange calculs et effets. Pour mettre ce phenomene en evidence, ajoutons 
des effets dans le calcul de 1*2 + 3*4 en y melant des impressions au terminal. 
Remplacons d'abord les nombres par des sequences qui les impriment, par exemple 
remplagons 1 par (print_int 1; 1). (On doit obligatoirement parentheser une 
sequence pour l'inclure dans une operation.) Puis effectuons le calcul en commengant 
par l'une ou l'autre de ses sous-expressions: d'abord 1*2, puis 3*4. 
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# let un_fois_deux = (print_int 1; 1) * (print_int 2; 2) in 

let trois_f ois_quatre = (print_int 3; 3) * (print_int 4; 4) in 
un_fois_deux + trois_f ois_quatre ; ; 
2143- : int = 14 

# let trois_f ois_quatre = (print_int 3; 3) * (print_int 4; 4) in 
let un_fois_deux = (print_int 1; 1) * (print_int 2; 2) in 
un_fois_deux + trois_f ois_quatre ; ; 

4321- : int = 14 

On n'obtient evidemment pas les memes impressions a l'ecran. Laissons le compilateur 
nous devoiler l'ordre qu'il choisit : 

# (print_int 1; 1) * (print_int 2; 2) + 
(print_int 3; 3) * (print_int 4; 4);; 

4321- : int = 14 

Un autre compilateur aurait pu choisir un autre ordre. La conclusion de cette experience 
est qu'il ne faut jamais melanger effets et appels de fonctions, car on ne sait pas alors 
determiner le moment oil les effets vont intervenir. En effet, l'ordre devaluation des ar- 
guments d'une fonction n'est pas garanti par le langage. Seules la sequence, Palternative 
et la construction let ont un ordre devaluation determine. Ce n'est pas etonnant pour 
la sequence, puisque c'est son role de fixer l'ordre devaluation de deux expressions. Pour 
Palternative, il est clair qu'on ne peut decider la branche a choisir qu'apres avoir evalue 
la condition. En ce qui concerne le let, on evalue toujours l'expression definissante 
d'abord: dans let x = e\ in e<i on evalue e\ avant e2, garantissant ainsi que la valeur 
de l'identificateur x est connue pendant le calcul de l'expression e2- 

Effets et regie i] 

La regie i] du paragraphe precedent stipule que l'expression (function x -> f x) est 
equivalente a /. Nous avons precise que cette regie s'applique quand / est une fonction. 
En fait, cette regie s'etend facilement au cas ou / est une expression quelconque, mais 
seulement dans le cas ou cette expression / ne produit pas d'effets. Insistons : la regie est 
parfaitement correcte pour toute fonction /, que / produise des effets ou non. De plus 
cette regie s'etend a toute expression, pourvu que cette expression ne produise aucun 
effet. II est pourtant impossible d'etendre la regie a une expression quelconque, car 
certaines expressions produisant des effets l'invalident. II est si tentant d'utiliser cette 
regie etendue sans verifier que l'expression impartie est sans effets que nous pensons 
necessaire d'etudier un exemple oil les effets empechent de l'utiliser sous peine d'erreur. 
Definissons une fonction f qui incremente son argument, puis retourne une fonction en 
resultat : 

# let f x = incr x; (function z -> z + 1) ; ; 
f : int ref -> int -> int = <fun> 

Puis nous definissons une autre fonction, g, qui appelle f avec la variable deja definie 
compteur. Nous prenons egalement bien soin de suivre revolution du contenu de la 
reference compteur. 

# ! compteur; ; 
- : int = 4 
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# let g y = f compteur y;; 
g : int -> int = <fun> 

# ! compteur; ; 

- : int = 4 

On constate que la definition de g n'a pas modifie la valeur de compteur, ce qui semblc 
normal. En revanche, chaque fois qu'on appelle la fonction g avec une valeur v, on 
evalue l'expression f compteur v, si bien que la valeur de compteur est incremented a 
chaque appel de g, ce qui semble toujours un comportement raisonnable. 

# g 0;; 

- : int = 1 

# ! compteur; ; 

- : int = 5 

Mais supposez maintenant que nous utilisions la regie r\ pour simplifier la definition 
de g en supprimant l'argument y. C'est bien sur interdit, car nous utiliserions la regie 
avec l'expression «f compteur » qui n'est pas une fonction (c'est une application) et 
qui de surcroit produit des effets. Pour montrer que le comportement du programme 
changerait, faisons-le tout de meme, en suivant toujours soigneusement revolution de 
la valeur de compteur. 

# let g = f compteur; ; 
g : int -> int = <fun> 

# ! compteur; ; 

- : int = 6 

On constate que la valeur de compteur a ete modifiee en definissant g. En effet, pour 
definir g on applique maintenant f a compteur et cela produit tout naturellement 
un effet sur compteur pendant la definition de g, puisque revaluation de f compteur 
provoque l'execution de la sequence incr x; (function z -> z + 1) ou x est lie 
a compteur. On incremente done compteur et Ton renvoie la fonction. Maintenant, 
appelons g comme precedemment : 

# ! compteur; ; 

- : int = 6 

# g 0;; 

- : int = 1 

# ! compteur; ; 

- : int = 6 

La valeur de compteur n'est plus modifiee a l'appel de g. En effet, g a maintenant pour 
valeur la fonction function z -> z + 1 qui ne fait bien sur aucun effet sur la valeur 
de compteur. Par la suite, les appels a g n'incrementeront done plus jamais compteur. 

Ce comportement est du a l'effet retard induit par les parametres de fonction : quand 
on definit g avec un argument explicite y, il faut attendre l'application de g a une valeur 
pour commencer l'execution du corps de g, done revaluation de f compteur y. Dans 
le cas d'une fonction definie sans argument (par un calcul), les effets interviennent 
immediatement puisqu'il n'y a aucune valeur de parametre a attendre. 
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Fonctionnelles et polymorphisme 



Oil I 'on apprend qu 'il y a des fonctions qui fabriquent des 
fonctions et des types qui remplacent n'importe quoi. 



UOIQUE reputees difficiles, les notions de polymorphisme et de pleine 
fonctionnalite s'introduisent tres naturellement en Caml et vous constaterez 
dans ce chapitre qu'elles ne sont pas si ardues. Si vous n'avez jamais entendu 
parler de polymorphisme, lisez la premiere section. Les sections suivantes, jusqu'a la 
section 4.7, montrent le polymorphisme a Pceuvre dans des situations pratiques. Au 
passage (section 4.3), nous ferons le point sur l'algebre de types de Caml. 




4.1 Notion de polymorphisme 

Etymologiquement, polymorphe signifie plusieurs (poly) formes (morphe). On em- 
ploie ce mot par exemple en psychologie pour parler de pervers polymorphes (pervers 
qui ne sont pas fixes sur une forme precise de perversion, ce qui est un stade normal 
de developpement psychologique de l'enfant), ou bien en medecine pour des maladies 
qui entrainent des symptomes variables, ou des virus dont l'aspect varie. En informa- 
tique, ce terme designe des objets ou des programmes qui peuvent servir sans modifi- 
cations dans des contextes tres divers. Par exemple, une fonction de tri d'objets sera 
monomorphe si elle ne s'applique qu'a un seul type d'objets (par exemple les entiers) 
et polymorphe si elle s'applique a tous les types d'objets qu'on peut comparer pour les 
ranger du plus petit au plus grand. Dans ce dernier cas, le meme programme de tri 
s'appliquera sans modifications a des entiers (comparaison <), a des nombres flottants 
(comparaison < des flottants) et a des chaines de caracteres (ordre du dictionnaire). 
Du point de vue du typage, cela signifie que la fonction de tri pourra etre employee 
avec plusieurs types differents. 

Le polymorphisme n'est pas l'apanage des fonctions : certaines valeurs non fonc- 
tionnelles peuvent aussi etre utilisees avec plusieurs « formes », c'est-a-dire plusieurs 
types. Les exemples se trouvent du cote des structures de donnees comme les tableaux 
et les listes : clairement, un tableau de nombres entiers ne pourra pas etre employe avec 
un autre type, mais vous admettrez facilement que le tableau vide (le tableau a zero 
element) peut etre vu comme un tableau d'entiers aussi bien que comme un tableau 
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de chaines. Nous allons nous interesser d'abord aux fonctions polymorphes, parce que 
c'est dans le domaine des fonctions que cette notion est la plus naturelle et la plus facile 
a apprehender. 

Pour exprimer le polymorphisme dans les expressions de types, nous avons besoin 
d'une notion de types qui puissent remplacer plusieurs types differents : ce sont les 
parametres de type, qu'on distingue syntaxiquement des types ordinaires en les faisant 
preceder d'une apostrophe ('). Par exemple, 'a est un parametre de type nomine a. 

Le polymorphisme de Caml est techniquement qualifie de parametrique. Intuitive- 
ment cela signifie que ce polymorphisme fonctionne en «tout ou rien». La signification 
d'un parametre de type est de remplacer n'importe quel autre type et non pas un certain 
nombre d'autres types. On n'aura done pas de programmes Caml uniquement valables 
pour un ensemble determine de types. Par exemple, il n'y a aucun moyen de definir 
une fonction qui s'appliquerait uniquement a des entiers et des chaines de caracteres 
(et qui aurait done un type du genre (int ou string) -> . . .) Un programme Caml 
s'applique soit a tous les types possibles, soit a un seul et unique type. Dans le premier 
cas le type du programme comporte un parametre (par exemple 'a -> . . .), dans le 
second cas il n'en comporte pas (par exemple int -> . . . ). Voyons un premier exemple : 

# let successeur x = x + 1;; 
successeur : int -> int = <fun> 

La fonction est monomorphe, comme on s'y attend : elle ne s'applique qu'a des entiers, 
puisqu'on doit faire une addition avec son argument. Mais supposons qu'on supprime 
l'addition qui entraine cette contrainte sur l'argument x et qu'on renvoie directement 
1. 

# let fonction_un x = 1;; 

f onction_un : 'a -> int = <fun> 

La fonction f onction_un est maintenant polymorphe : elle ne fait rien de son argument, 
on peut done l'appliquer a n'importe quoi. 

# fonction_un 2;; # fonction_un "oui";; # f onction_un true;; 
- : int = 1 - : int = 1 - : int = 1 

Contrairement a ce que suggere l'exemple f onction_un, une fonction polymorphe peut 
utiliser son argument, par exemple en le renvoyant tel quel. Nous supprimons encore 
une fois l'addition dans le code de successeur, mais cette fois nous renvoyons x au lieu 
de 1: 

# let identite x = x;; 
identite : 'a -> 'a = <fun> 

Nous obtenons encore une fonction polymorphe. Notez que le type de la fonction 
identite indique a juste titre que le type du resultat est exactement celui de 
l'argument. Le parametre 'a remplace n'importe quel type, en particulier string ou 
int, legitimant ainsi Pemploi de identite avec le type string -> string, et aussi 
avec le type int -> int : 



# identite "non";; 
- : string = "non" 



# identite 1 ; ; 
- : int = 1 
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Ce mecanisme de remplacement d'un parametre de type par un type quelconque 
s'appelle la specialisation. Nos deux exemples consistent done a specialiser 'a en 
string, puis en int. On n'est pas oblige de specialiser un parametre avec un type de 
base, comme nous l'avons fait jusqu'a present ; on le specialise tout aussi bien avec 
un type complexe, par exemple int -> int. Dans le cas de la fonction identite, on 
obtient le type (int -> int) -> (int -> int). Cela suggere d'appeler la fonction 
identite sur un argument qui est lui-meme une fonction ; et pourquoi pas la fonction 
successeur ? 

# identite successeur; ; 

- : int -> int = <fun> 

La fonction identite renvoie toujours son argument sans modification; elle renvoie 
done tout simplement la fonction successeur quand on l'applique a successeur. Par 
exemple : 

# let success = identite successeur; ; 
success : int -> int = <fun> 

# success 3; ; 

- : int = 4 

4.2 Fonctions d'ordre superieur 

Les fonctions d'ordre superieur sont des fonctions dont les arguments ou les resultats 
sont eux-memes des fonctions. Une fonction d'ordre superieur est encore appelee une 
fonctionnelle. Ces fonctions sont souvent polymorphes et surtout employees avec des 
structures de donnees plus complexes que les types de base. II n'est pas necessaire de 
tout connaitre sur le polymorphisme et les fonctions d'ordre superieur pour les utiliser. 
Pour le lecteur plus interesse par les programmes que par la theorie, il suffit done de 
lire cette section pour comprendre le reste des exemples de ce livre. 

Nous commencerons par les fonctions qui renvoient d'autres fonctions, puis nous 
verrons les fonctions dont les arguments sont fonctionnels. Les exemples presentes ici 
seront sans doute un peu artificiels, puisque nous ne disposons pas encore des outils 
sufnsants pour montrer des utilisations realistes de fonctionnelles sur des structures de 
donnees complexes. 

Fonctions retournant des fonctions 

Supposez que nous voulions deflnir la fonction f ois_x qui, etant donne un entier x, 
fabrique la fonction qui multipliera par x. La definition en pseudo-code Caml serait : 

let fois_x (x) = « la fonction qui multiplie par x»;; 

Nous ecrivons done du vrai code pour la periphrase « la fonction qui multiplie par x » : 

# let f ois_x (x) = (function y -> x * y) ; ; 
fois_x : int -> int -> int = <fun> 

La fonction fois_x est une fonctionnelle: quand on l'applique a un argument elle 
fabrique une fonction qu'elle renvoie en resultat ! Ainsi, on obtient la multiplication par 
2 en appliquant f ois_x a 2. 
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# let double = f ois_x (2) ; ; 
double : int -> int = <fun> 

# double (3) ; ; 

- : int = 6 

On constate ainsi qu'on a defini la fonction double non pas en donnant les arguments 
et le corps de la fonction (par la construction function), mais par un calcul : nous 
avons calculi une fonction. II n'est d'ailleurs meme pas necessaire de donner un nom a 
la fonction double pour calculer double (3) : nous pouvons directement appliquer la 
fonction calculee fois_x (2) a la valeur 3. 

# (fois_x (2)) (3);; 

- : int = 6 

La syntaxe de Caml autorise une ecriture encore simplified de cette expression, sans 
aucune parenthese. Rappelons que les conventions syntaxiques pour l'application des 
fonctions en Caml stipulent en effet que 

• f x est lu comme f (x) 

• f x y est lu comme (f x) y. 

En employant la premiere regie on obtient d'abord (f ois_x 2) 3, puis en appliquant 
la seconde, on obtient la forme la plus simple f ois_x 2 3. 

# fois_x 2 3; ; 

- : int = 6 



Fonctions dont les arguments sont des fonctions 

Faisons un pas de plus : definissons une fonction avec un argument fonction- 
nel. Par exemple, la fonctionnelle double_le_resultat_de qui double le resultat 
de sa fonction argument : etant donnes une fonction f et un argument x pour f , 
double_le_resultat_de retourne la valeur 2 * f (x) , c'est-a-dire double (f x) . 

# let double_le_resultat_de (f : int -> int) = 

function x -> double (f x) ; ; 
double_le_resultat_de : (int -> int) -> int -> int = <fun> 

Avec cette fonctionnelle nous pouvons a nouveau calculer des fonctions. Par exemple, la 
fonction qui retourne le double du successeur de son argument, function x -> 2 * (x 
+ 1), se calcule en appliquant la fonctionnelle double_le_resultat_de a la fonction 
successeur. C'est un calcul tout a fait normal, si ce n'est qu'il implique des fonctions 
et que le resultat est en fait une fonction. 

# let double_du_successeur = double_le_resultat_de successeur; ; 
double_du_successeur : int -> int = <fun> 

# double_du_successeur 3;; 
- : int = 8 
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La fonctionnelle «sigma» 

A l'occasion de la definition des operations sur les polynomes, nous avons vu la 
notation mathematique E, definie par : 

n 

formule (i) = formule (0) + formule (1) + • • • + formule (n). 

i=0 

Avec le vocabulaire des langages fonctionnels, la notation E n'est rien d'autre qu'une 
fonctionnelle qui prend en argument une fonction representant formule et l'applique 
successivement a 0, 1, ... ,n. II est tres facile de definir cette fonctionnelle en Caml, a 
l'aide d'une boucle et d'un accumulateur : 

# let sigma formule n = 

let resultat = ref 0 in 

for i = 0 to n do resultat := ! resultat + formule (i) done; 
! resultat ; ; 

sigma : (int -> int) -> int -> int = <fun> 
ou meme a l'aide d'une fonction recursive 

# let rec sigma formule n = 

if n <= 0 then 0 else formule n + sigma formule (n - 1) ; ; 
sigma : (int -> int) -> int -> int = <fun> 

Nous pouvons maintenant faire calculer par Caml les exemples que nous avions 
donnes. Si la formule est reduite a i, on obtient la somme des nombres de 0 a n : 

n 

J^i = 0 + 1 + ■■■ + n. 

i=0 

Cette formule correspond a appeler la fonctionnelle sigma avec l'argument (function 
i -> i). 

# sigma (function i -> i) 10;; # sigma identite 10;; 

- : int =55 - : int = 55 

De meme la somme des carres des nombres entre 0 et n, 

n 

Y^i 2 = 0 2 + l 2 + --- + n 2 , 

i=0 

s'obtient par application de sigma a l'argument (function i -> i * i). 

# sigma (function i -> i * i) 10;; 

- : int = 385 

4.3 Typage et polymorphisme 

Synthese du type le plus general 

Comme nous l'avons deja dit, le compilateur de Caml donne un type a chaque phrase 
entree par Putilisateur ; cette inference de types ne necessite aucune participation de 
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l'utilisateur : elle se produit automatiquement sans necessite d'indiquer les types dans 
les programmes. Connaissant les types des valeurs de base et des operations primitives, 
le controleur de types produit un type pour une phrase en suivant des regies de typage 
pour les constructions du langage comme la definition et l'application des fonctions. 
De plus, le type infere contient le plus petit ensemble de contraintes necessaires au bon 
deroulement de l'execution du programme (ici, « bon deroulement » signifie qu'il n'y 
aura pas d'erreurs de type a l'execution). On dit que le controleur de type trouve le 
type le plus general de chaque expression (notion introduite par Robin Milner en 1978). 
Par exemple, la fonction successeur regoit le type int -> int parce que son argument 
doit etre un entier, puisqu'on lui ajoute 1. En revanche la fonction identite a le type 
' a -> 'a parce qu'il n'y a pas de contrainte sur son argument. Le polymorphisme 
s'introduit done naturellement a partir de l'absence de contraintes sur le type d'un 
argument ou d'une valeur. Par exemple, rappelons la definition de la fonctionnelle 
double_le_resultat_de : 

# let double_le_resultat_de (f : int -> int) = 

function x -> double (f x) ; ; 
double_le_resultat_de : (int -> int) -> int -> int = <fun> 

L'argument f devait etre une fonction des entiers vers les entiers, a cause de la contrainte 
de type (f : int -> int), explicitement ecrite dans le programme. Mais si nous 
retirons cette contrainte de type, nous obtenons une fonctionnelle plus generale : 

# let double_le_resultat_de f = function x -> double (f x) ; ; 
double_le_resultat_de : ('a -> int) -> 'a -> int = <fun> 

La fonctionnelle devient polymorphe, car le controleur de type a decouvert que f devait 
seulement renvoyer un entier en resultat, mais qu'il n'est nullement obligatoire qu'elle 
prenne un entier en argument. Voici un exemple ou f regoit une chaine de caracteres : 

# let double_de_la_longueur = double_le_resultat_de string_length; ; 
double_de_la_longueur : string -> int = <fun> 

# double_de_la_longueur "Caml";; 
- : int = 8 

Le polymorphisme decoule done de l'absence de contraintes sur une valeur. Cela 
explique pourquoi un parametre de type peut etre remplace sans risque d'erreurs par 
n'importe quel type, y compris un type lui-meme polymorphe. Par exemple, on applique 
la fonction identite a elle-meme en l'employant avec le type ('a -> 'a) -> ('a -> 
'a): 

# let id x = (identite identite) x;; 
id : 'a -> 'a = <fun> 

Puisque la fonction identite renvoie toujours son argument, (identite identite) 
s'evalue en identite, et la fonction id est done tout simplement egale a la fonction 
identite. 

L'algebre des types de Caml 

Nous allons maintenant preciser davantage l'ensemble des types qu'utilise le systeme 
Caml, ce qu'on nomme techniquement son algebre des types. Tout type Caml entre dans 
l'une des categories suivantes : 
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• Types de base (comme int ou string). 

• Types composites (comme int -> int ou int vect). 

• Parametres de type (comme ' a) . 

Les types composites sont construits avec des constructeurs de types, tels que la 
fleche ->. Etant donnes deux types t\ et ti-, le constructeur de type fleche construit le 
type t\ -> t2, qui est le type des fonctions ayant un argument du type t± et rendant 
un resultat du type ti-, autrement dit les fonctions de t\ dans £2- Remarquons que le 
constructeur fleche est un operateur binaire (deux arguments) et infixe (situe entre 
ses arguments, comme Test le symbole de l'addition +). En revanche, le constructeur 
de types vect est unaire, puisqu'a partir d'un unique type ti, il construit le type 
ii vect. Ce constructeur est postfixe, c'est-a-dire place apres son argument. Tous les 
constructeurs de types unaires sont postfixes en Caml. Par extension, les types n'ayant 
pas d'arguments (int par exemple) sont appeles constructeurs de types constants. 

Les paires 

II existe un autre constructeur de type binaire et infixe dont nous n'avons pas encore 
parle : le constructeur predefini « * ». Etant donnes deux types t\ et £2, la notation t\ * £2 
est done un type. C'est le produit cartesien des types t\ et t<i- II denote le type des 
couples d'un element du type t\ avec un element du type ti- En mathematiques, le 
produit cartesien de deux ensembles A et B est l'ensemble des couples (x, y) tels que 
x est element de A et y element de B. Le produit cartesien de A et B est note A x B. 
Cette analogie avec la notation de la multiplication est aussi employee en Caml, d'ou 
le symbole * dans les types. 

Les valeurs de types produit se notent comme en mathematiques : on ecrit les deux 
elements du couple entre parentheses et separes par une virgule. Une petite difference 
d'appellation cependant : en informatique on parle plus volontiers de paires que de 
couples. De plus, en Caml, les parentheses autour des paires ne sont pas toujours 
strictement necessaires. 

# (1, 2);; 

- : int * int =1,2 

Les paires sont aussi utilisees en tant qu'arguments ou resultats de fonctions. 

# let addition (x, y) = x + y;; 
addition : int * int -> int = <fun> 

# addition (1, 2) ; ; 

- : int = 3 

A l'aide de paires, on ecrit des fonctions qui rendent plusieurs resultats. Par exemple, 
la fonction suivante calcule simultanement le quotient et le reste d'une division entiere : 

# let quotient_reste (x, y) = ((x / y) , (x mod y));; 
quotient_reste : int * int -> int * int = <fun> 

# quotient_reste (5, 3);; 

- : int * int =1,2 

Les notations pour les paires se generalisent aux triplets, aux quadruplets, et en fait 
aux n-uplets pour n'importe quel nombre d'elements n. Par exemple, (1, 2, 3) est 
un triplet d'entiers et possede le type int * int * int. 
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4.4 Curryfication 

A proprement parler, une fonction prenant une paire comme argument ne possede 
quand meme qu'un seul argument et non pas deux. La fonction addition ci-dessus, 
qui prend un seul argument qui se trouve etre une paire, est differente de la fonction 
add suivante, qui prend deux arguments. 

# let add x y = x + y; ; 

add : int -> int -> int = <fun> 

Du point de vue pratique, la difference est minime, il est vrai. D'un point de vue tech- 
nique, une fonction qui regoit ses arguments un par un (comme add) est dite curryfiee. 
En revanche, une fonction qui regoit tous ses arguments a la fois sous la forme d'une 
paire ou plus generalement d'un n-uplet de valeurs est dite non curryfiee. Le neologisme 
« curryfier » n'est pas une allusion a la cuisine indienne, mais un hommage au logicien 
Haskell Curry. 

Application partielle 

La difference essentielle entre add et addition tient dans la maniere de les appli- 
quer: il est legal d'appliquer la fonction add a un seul argument, obtenant ainsi unc 
fonction comme resultat, tandis que la fonction addition doit forcement recevoir ses 
deux entiers en meme temps. Cette capacite des fonctions curryfiees de ne recevoir 
qu'un certain nombre de leurs arguments permet V application partielle. Par exemple, 
en appliquant (partiellement) add a l'entier 1, on obtient la fonction successeur. 

# let successeur = add 1;; 
successeur : int -> int = <fun> 

# successeur 3; ; 
- : int = 4 

Curryfication et type fleche 

Une fonction curryfiee est done un cas particulier de fonctionnelle, puisqu'elle per- 
met de creer d'autres fonctions, en fixant certains de ses arguments. Cette propriete 
est en fait inscrite dans le type d'une fonction curryfiee. Par exemple, le type de add 
est int -> int -> int. Or, le constructeur de type -> associe a droite, ce qui signifie 
que le type de add n'est autre que int -> (int -> int). Cette ecriture explicitement 
parenthesee indique clairement que add est une fonctionnelle : etant donne un entier, 
add retourne une autre fonction dont le type est justement (int -> int). Cela parait 
difficile a comprendre au premier abord, mais e'est simplement une autre maniere de 
voir des phrases aussi simple que «aj outer 2 au resultat precedent », qui signifie en 
fait : utiliser l'addition avec l'un des arguments fixe a 2 et appliquer cette fonction au 
resultat precedent. En Caml, cela correspondrait a evaluer : 
(add 2) (« resultat precedent ») ; ; 

Une autre approche feconde est de considerer add comme une fonction generique, qui 
permet d'obtenir la famine de toutes les fonctions qui ajoutent une constante a leur 
argument (et qui sont done de type int -> int). Par exemple, la fonction add_3, qui 
ajoute 3 a son argument, est definie par : 
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# let add_3 = add 3 ; ; 
add_3 : int -> int = <fun> 

L'application partielle d'une fonction curryfiee pour fixer certains de ces arguments se 
justifie lorsque la fonction est tres generale. Dans ce cas, cette operation de specialisation 
permet de retrouver des fonctions interessantes en elles-memes. Nous en verrons un 
exemple avec le tri, oil fixer l'argument fonctionnel correspondant a la comparaison 
permet de definir le tri en ordre croissant ou le tri en ordre decroissant. 

De cette etude des fonctions curryfiees, retenons que le constructeur de type — ► est 
associatif a droite, ce qui signifie tout simplement que : 

ti — > t 2 — > t 3 est equivalent a ti — > (t 2 — > t 3 ) 



4.5 Une fonctionnelle de tri polymorphe 

Le polymorphisme n'est pas reserve au style fonctionnel. Pour le montrer, nous 
definissons ici une procedure qui trie en place un tableau. La procedure ne calcule pas 
de valeurs, mais modifie l'ordre des elements dans le tableau. Nous generalisons ensuite 
cette procedure pour la rendre applicable a tout type d'ordre. 

Trier des tableaux en ordre croissant 

L'algorithme de tri employe ici repose sur une idee tres simple : on cherche le mini- 
mum des elements du tableau et on le met a la premiere place. Puis on cherche le min- 
imum du reste du tableau et on le met a la seconde place. II suffit d'iterer ce precede 
jusqu'a avoir parcouru completement le tableau. Ce tri s'appelle le tri par selection. 
Son principe s'illustre graphiquement par le schema suivant, qui montre la i ieme etape 
du tri par selection, consistant a deplacer t . (j) en t. (?) , oil j est l'indice tel que t. (j) 
est le plus petit des elements t . (0 , t . (i + 1) , . . . 

t. (j) est le minimum a partir de i 
defmitivement en place 

t rr t t 

0 i — li j vect_length(t) — 1 

Pour traduire cet algorithme en Caml, nous avons besoin d'une procedure auxil- 
iaire qui se charge d'echanger deux elements dans un tableau. II est bien connu que 
cette tache presente une petite difficulte : il faut garder une copie d'un des elements, 
puisqu'on perd cet element quand on ecrit l'autre a sa place. Cela merite bien une 
procedure independante de la fonction de tri. La procedure d'echange est naturelle- 
ment polymorphe : elle peut s'appliquer a tout type de tableau puisqu'elle effectue une 
operation independante de la nature des elements du tableau. 

# let echange t i j = (* echange les elements i et j de t *) 
let element_i = t.(i) in 
t. (i) <- t. (j) ; 
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t.(j) <- element_i;; 
echange : 'a vect -> int -> int -> unit = <fun> 

II n'y a plus de difficulte a ecrire en Caml le tri par selection : 

# let tri t = 

for i = 0 to vect_length t - 2 do 
let min = ref i in 

for j = i + 1 to vect_length t - 1 do 

if t.(j) <= t.(!min) then min := j 
done ; 

echange t i !min 
done ; ; 

tri : 'a vect -> unit = <fun> 

Generalisation a tout type d'ordre 

Pour rendre cette procedure polymorphe encore plus generale, il suffit de remarquer 
que c'est l'emploi de la primitive <= pour comparer les elements du tableau qui impose 
le rangement par ordre croissant. II suffit done de passer la fonction de comparaison 
en argument pour trier selon toute sorte d'ordres. Lorsqu'on passe ainsi en argument 
une fonction utilisee dans le corps d'une definition, on dit qu'on « abstrait » la fonction. 
Dans le cas du tri on abstrait done la comparaison et la fonction tri prend alors un 
argument supplement aire, ordre, une fonction a deux arguments x et y renvoyant true 
si x est inferieur ou egal a y et false sinon (ces fonctions sont appelees predicats). 

# let tri ordre t = 

for i = 0 to vect_length t - 2 do 
let min = ref i in 

for j = i + 1 to vect_length t - 1 do 

if ordre t.(j) t.(!min) then min := j 
done ; 

echange t i !min 
done ; ; 

tri : C'a -> 'a -> bool) -> 'a vect -> unit = <fun> 

Trions par ordre croissant ou decroissant un tableau d'entiers, en changeant simplement 
l'ordre : 

# let t = [|3; 1; 2|] in 

tri (function x -> function y -> x <= y) t; t;; 

- : int vect = [U; 2; 31] 

# let t = [|3; 1; 2|] in 

tri (function x -> function y -> x >= y) t; t;; 

- : int vect = [13; 2; 11] 

Ce n'est pas plus difficile pour les tableaux de chaines de caracteres, en utilisant les 
fonctions predefinies de comparaison ge_string (superieur ou egal sur les chaines) ou 
le_string (inferieur ou egal), qui comparent deux chaines dans l'ordre lexicographique, 
e'est-a-dire l'ordre du dictionnaire. 

# let t = [|"Salut "; "les " ; "copains!"|] in 

tri (function x -> function y -> ge_string x y) t; t;; 

- : string vect = [I "les "; "copains!"; "Salut "/J 
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# let t = [|"Salut "; "les "; "copains ! " I ] in 

tri (function x -> function y -> le_string x y) t; t;; 

- : string vect = [ / "Salut "; "copains/"; "les "I] 

On constate sur cet exemple que les lettres majuscules precedent les lettres minuscules 
dans l'ordre lexicographique utilise en Caml. Nous pouvons maintenant appliquer par- 
tiellement la procedure tri a des ordres habituels, pour obtenir des procedures de tri 
specialisees : 

# let tri_croissant t = tri (function x -> function y -> x <= y) t;; 
tri_ croissant : 'a vect -> unit = <fun> 

# let tri_decroissant t = tri (function x -> function y -> x >= y) t;; 
tri_decroissant : 'a vect -> unit = <fun> 

# let tri_du_dictionnaire = tri le_string; ; 
tri_du_dictionnaire : string vect -> unit = <fun> 

# let t = [| "Bonjour"; "tout"; "le"; "monde" |] in 
tri_du_dictionnaire t; t;; 

- : string vect = [I "Bonjour" ; "le"; "monde"; "tout" I] 

En conclusion, nous avons pu definir une procedure de tri tres generale : grace au 
polymorphisme, cette procedure s'applique a tout type de tableau ; grace a la pleine 
fonctionnalite, elle s'applique a tout type d'ordre. On retrouve les procedures de tri 
habituelles en specialisant certains parametres de la procedure generale. 

4.6 La pleine fonctionnalite 

Nous avons vu que les fonctions peuvent etre passees en arguments ou rendues 
en resultat, comme toutes les autres donnees. Plus etonnant encore, on les manipule 
comme des valeurs ordinaires a l'interieur des structures de donnees. Nous etudions 
maintenant un exemple qui nous amene tres naturellement a utiliser des tableaux de 
fonctions. 

Menu a deux cas 

Notre but est d'ecrire une fois pour toutes une procedure qui affiche un menu, lit le 
choix de l'utilisateur et lance l'option correspondante du menu. Pour simplifier, nous 
nous restreignons dans un premier temps aux menus qui offrent exactement deux possi- 
bilites. La procedure prend done quatre arguments : deux messages d'invite a afficher et 
deux procedures correspondantes. Apres avoir amche le menu, elle lit l'option retenue 
par l'utilisateur a l'aide de la fonction predefinie read_int, qui lit un entier tape au 
clavier, puis appelle l'option correspondante, en testant la reponse de l'utilisateur. 

# let menu invitel optionl invite2 option2 = 

print_string ("<0>: " ~ invitel); print_string " "; 
print_string ("<1>: " " invite2) ; print_newline (); 
print_string "Choisissez votre option: "; 
let reponse = read_int () in 

if reponse = 0 then optionl () else option2 ();; 
menu : string -> (unit -> 'a) -> string -> (unit -> 'a) -> 'a = <fun> 
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Pour nos essais, nous definissons deux petites procedures qui impriment simplement un 
message au terminal : 

# let au_revoir () = print_string "Au revoir"; print_newline () ; ; 
au_revoir : unit -> unit = <fun> 

# let continuer () = print_string "Continuons ! " ; print_newline () ; ; 
continuer : unit -> unit = <fun> 

Nous obtenons alors le dialogue suivant : 

# menu "Arreter" au_revoir 

"Continuer" continuer; ; 
<0>: Arreter <1>: Continuer 
Choisissez votre option: 1 
Continuons ! 

- : unit = () 

Menu a plusieurs cas 

Pour generaliser la procedure precedente a un nombre quelconque d'options, il suffit 
de lui passer deux tableaux en arguments : un tableau de chaines de caracteres pour les 
messages d'invite et un tableau de procedures pour les options. II faut maintenant ecrire 
le menu avec une boucle for parcourant le tableau des messages, puis lire l'option choisie 
par Putilisateur et selectionner la procedure correspondante du tableau des options. 

# let menu invites options = 

for i = 0 to vect_length invites - 1 do 
print_string 

("<" ~ (string_of_int i) ~ ">: " ~ invites. (i) * " ") 
done ; 

print_newline () ; 

print_string "Choisissez votre option: "; 
let reponse = read_int () in 
options . (reponse) () ; ; 
menu : string vect -> ("unit -> 'a) vect -> 'a = <fun> 

La fonction predefmie string_of _int renvoie la chaine de caracteres correspondant a 
son argument entier. 

A titre demonstratif, nous appelons la procedure avec une troisieme option qui con- 
siste a ne rien faire : la procedure associee est simplement la fonction identite (specialised 
au type unit) que nous fournissons comme une fonction anonyme. 

# menu [| "Arreter"; "Continuer"; "Ne rien faire" |] 

[| au_revoir; continuer; (function () -> ()) |];; 
<0>: Arreter <1>: Continuer <2> : Ne rien faire 
Choisissez votre option 2 

- : unit = () 

Utiliser les types pour eviter les erreurs 

Fournir deux tableaux distincts pour les options et les messages d'invite est source 
d'erreurs, puisque le typage n'assure pas la correspondance entre l'invite et l'option. La 
correction est aisee : il suffit de n'utiliser qu'un seul tableau contenant des paires dont 
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le premier element est un message d'invite et le second l'option associee. Cet exemple 
nous amene a definir les fonctions d'acces aux composantes d'une paire, traditionnelle- 
ment nominees f st (pour first, qui signifie « premier » en anglais) et snd (pour second, 
« second »). Bien que ces fonctions soient predefinies en Caml, nous ecrivons leur code 
car il est elegant. On opere tout simplement par filtrage de la paire argument : 

# let f st (x, y) = x; ; 

fst : 'a * 'b -> 'a = <fun> 

# let snd (x, y) = y ; ; 

snd : 'a * 'b -> 'b = <fim> 

Une fois de plus, le polymorphisme nous autorise a definir ces deux fonctions pour tous 
les types de paires. La fonction menu est maintenant sans surprises. 

# let menu invites_options = 

for i = 0 to vect_length invites_options - 1 do 

print_string ("<" " (string_of _int i) " ">: "); 

print_string (fst (invites_options . (i) ) ~ " ") 
done ; 

print_newline () ; 

print_string "Choisissez votre option: "; 
let reponse = read_int () in 
(snd (invites_options . (reponse) ) ) ();; 
menu : (string * (unit -> 'a)) vect -> 'a = <fun> 

# menu [I ("Arreter", au_revoir) ; 

("Continuer" , continuer) ; 

("Ne rien faire", (function () -> ())) |];; 
<0>: Arreter <1>: Continuer <2> : Ne rien faire 
Choisissez votre option: 0 
Au revoir 
- : unit = () 

Un menu polymorphe tres general 

Reflechissons encore un peu sur la procedure menu : la quintessence de cette 
procedure n'est pas d'appliquer directement les options, mais plutot de retourner 
un certain element d'un tableau d'options, selon la reaction de l'utilisateur aux 
propositions amchees. Un pas de plus dans la generalisation consiste done a ne pas 
considerer que les options doivent forcement etre des procedures. On se contente alors 
de retourner le deuxieme element du couple correspondant au message d'invite choisi 
par l'utilisateur. 

# let menu invites_options = 

for i = 0 to vect_length invites_options - 1 do 

print_string ("<" " (string_of _int i) " ">: "); 

print_string (fst (invites_options . (i) ) ~ " "); 

print_string " " 
done; 

print_newline () ; 

print_string "Choisissez votre option"; 

let reponse = read_int () in 

snd (invites_options . (reponse)) ; ; 
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menu : (string * 'a) vect -> 'a. = <fun> 

Ainsi, la procedure menu retourne aussi bien des entiers que des fonctions. Voici par 
exemple un morceau de programme qui determinerait le niveau de difficulte a prendre 
en compte dans un jeu. Ici la fonction menu retourne un entier. 

# let niveau_de_diff iculte = 

print_string "Etes-vous"; print _newline () ; 
menu [| ("Debutant ?", 1); 

("Amateur ?", 2); 

("Amateur confirme ?", 5); 

("Expert ?", 10) |];; 

Etes-vous 

<0>: Debutant ? <1>: Amateur ? <2>: Amateur confirme ? <3>: Expert ? 
Choisissez votre option: 0 
niveau_de_diff iculte : int = 1 

Nous avons cependant toujours le loisir d'appeler menu avec des options fonctionnelles. 

# let option = 

menu [| ("Arreter", au_revoir) ; 

("Continuer" , continuer) ; 

("Ne rien faire", (function () -> ())) |] in 

option () ; ; 

<0>: Arreter <1>: Continuer <2> : Ne rien faire 

Choisissez votre option: 0 

Au revoir 

- : unit = () 

II est bien entendu que la fonction menu reste naive : il lui faudrait tester la validite 
de la reponse de l'utilisateur et l'interroger a nouveau en cas d'erreur. La validation 
de la reponse pourrait s'effectuer a l'aide d'une fonction, argument supplement aire de 
menu. On peut aussi envisager de lire des chaines de caracteres au lieu de nombres 
(par exemple "oui" ou "non"). II n'en demeure pas moins que le polymorphisme et la 
pleine fonctionnalite nous permettent d'ecrire une fonction tres generale dans laquelle 
les problemes de mise en page des menus, d'obtention d'une reponse et de validation 
de la reponse obtenue seront factorises une fois pour toutes. 

Vous en savez maintenant assez pour passer au chapitre suivant. Ce qui suit est 
etonnant mais technique. En particulier, nous verrons que le langage est assez puissant 
pour definir un moyen automatique de passer de la version curryfiee a la version non 
curryfiee d'une fonction. 

4.7 Composition de fonctions 

En utilisant des fonctionnelles, on parvient a programmer des notions mathematiques 
qui paraissent a priori hors de portee d'une machine. Pour les lecteurs ferus de 
mathematiques, nous allons etudier un exemple surprenant : la composition des fonc- 
tions. II est non seulement possible de definir la composition de deux fonctions donnees 
en Caml, mais meme d'ecrire un programme qui implemente le fameux operateur « o ». 

Rappelons que composer deux fonctions revient a les appliquer successivement : la 
composee des fonctions / et g, qu'on note / o g en mathematiques (prononcer « / rond 
g»), est la fonction h definie par h(x) = f(g(x)). On fait souvent le schema suivant : 
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f°g 




Ainsi, l'operateur o des mathematiques est une fonctionnelle qui prend deux fonctions 
en arguments et renvoie une fonction : leur composee. II n'y a pas de dimcultes a defmir 
l'operateur o en Caml ; nous l'implementons sous le nom de compose. 

# let compose f g = function x -> f (g x) ; ; 

compose : ('a -> 'b) -> ('c -> 'a) -> >c -> 'b = <fun> 

Le type de la fonction compose reflete fidelement les restrictions qu'on doit imposer 
a deux fonctions pour pouvoir effectivement les composer. D'ailleurs, ces restrictions 
apparaissent dans notre schema: il faut que l'ensemble de depart de la fonction / soit 
le meme que l'ensemble d'arrivee de la fonction g. De plus, par definition, la composee 
/ o g de / et de g a pour ensemble de depart celui de g et pour ensemble d'arrivee 
celui de /. On le constate graphiquement, si Ton ne fait figurer dans le schema de la 
composition que les ensembles et les fonctions qui interviennent (schema ci-dessous a 
gauche). Le controleur de type de Caml calcule un type ou les noms A, B, C sont 
remplaces respectivement par les parametres 'c, 'a et 'b (schema de droite). 



fog compose f g 
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Le controleur de type a done retrouve tout seul les contraintes mathematiques et les 
verifiera automatiquement a chaque composition de fonctions. Considerons l'exemple 
d'ecole du successeur de la longueur d'une chaine de caracteres, d'abord sous forme 
graphique, puis en Caml. 



longueur_plus_un 




int 
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# let longueur_plus_un = compose successeur string_length; ; 
longueur_plus_un : string -> int = <fun> 

# longueur_plus_un "OK";; 
- : int = 3 

La composition de ces deux fonctions dans l'ordre inverse n'a pas de sens, ce que le 
controleur de types signale : 

# compose string_length successeur;; 
Entree interactive: 

>compose string_length successeur; ; 
> 

Cette expression est de type int -> int, 
mais est utilisee avec le type int -> string. 

La fonctionnelle de curryfication 

Nous allons definir une fonctionnelle, curry, pour obtenir automatiquement la ver- 
sion curryfiee d'une fonction non curryfiee a deux arguments. Notre fonctionnelle pren- 
dra done en argument une fonction f dont l'argument est une paire (x, y) et rendra 
en resultat une fonction a deux arguments (qui est done de la forme function x -> 
function y -> . . . ) rendant le meme resultat que f . On obtient done 

let curry f = 

(function x -> function y -> « meme resultat que f pour x ct y»);; 

Puisque le «meme resultat que f pour x et y» n'est autre que f (x, y), on a done 
simplement : 

# let curry f = function x -> (function y -> f (x, y));; 
curry : ('a * 'b -> ' c) -> 'a -> 'b -> 'c = <fun> 

Le type de la fonction curry est plus clair si l'on retablit les parentheses omises par 
l'imprimeur de types de Caml (une fois n'est pas coutume). En effet ('a * 'b -> ' c) 
-> 'a -> 'b -> 'c se lit aussi ('a * 'b -> 'c) -> ('a -> 'b -> 'c). 

La fonctionnelle de decurryfication 

La fonctionnelle reciproque, uncurry, n'est pas plus complexe. Elle prend en argu- 
ment une fonction curryfiee g et rend en resultat une fonction ayant un seul argument 
qui est une paire. Ce resultat est done une valeur de la forme function (x, y) -> . . . 

let uncurry g = 

(function (x, y) -> « meme resultat que g pour x et y»);; 

Or, puisque g est curryfiee a deux arguments, le «meme resultat que g pour x et y» 
est g x y. 

# let uncurry g = function (x, y) -> g x y; ; 
uncurry : ('a -> 'b -> ' c) -> 'a * 'b -> ' c = <fun> 

De meme que pour curry, le type de uncurry se lit plus facilement en retablissant les 
parentheses autour de 'a * 'b -> 'c. 
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Leurs composees 

Intuitivement, il est clair que les fonctionnelles curry et uncurry sont reciproques 
l'une de l'autre : a partir d'une fonction a « un argument de type paire » curry renvoie 
une fonction «a deux arguments », tandis que uncurry fait l'inverse. D'ailleurs : 

# let id_curry f = (compose curry uncurry) f;; 
id_curry : ('a -> 'b -> ' c) -> 'a -> 'b -> 'c = <fun> 

# let id_uncurry f = (compose uncurry curry) f;; 
id_uncurry : ('a * 'b -> ' c) -> 'a * 'b -> 'c = <fun> 



Une fonctionnelle inutile 

Considerez la fonctionnelle suivante qui applique une fonction f donnee a un argu- 
ment x donne : 

# let applique f x = f x; ; 

applique : ('a -> 'b) -> 'a -> 'b = <fun> 

Cette fonctionnelle ne sert a rien ! D'abord, si vous examinez soigneusement son type, 
vous vous rendrez compte que c'est une specialisation du type de Pidentite : ( ' a -> 
J b) -> 'a. -> ' b est une abreviation pour ('a -> 'b) -> ('a -> 'b) , c'est-a-dire J a 
-> 'a avec 'a specialise en ('a -> 'b). Done, applique pourrait bien ne rien faire, 
comme la fonction identite. On le demontre facilement, en utilisant toujours la regie 
77 avec l'argument x cette fois : 

let applique f x = f x; ; equivaut a let applique f = f ; ; 

ce qui demontre que applique est semantiquement equivalente a Pidentite, specialisee 
aux fonctions. En effet, applique impose a son argument f d'etre fonctionnel puisqu'elle 
Papplique a l'argument x. Cela nous fournit un exemple ou Papplication de la regie r\ 
change le type de la fonction qu'on definit, le rendant plus general : 

# let applique f = f ; ; 
applique : ' a -> 'a = <fun> 
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La tete et la queue, sans les oreilles . . . 



ARMI LES STRUCTURES DE DONNEES PREDEFINES en Caml, les listes ont Un 

statut privilegie : elles sont d'emploi frequent, car simples a manipuler et tres 
generates. Si vous savez que les listes peuvent a peu pres tout coder, mais qu'il 
ne faut pas pour autant les mettre a toutes les sauces, en bref, si vous connaissez bien 
it_list et que justement vous evitez de Pemployer trop souvent, alors lisez directement 
le chapitre suivant. 

Nous verrons, dans celui-ci, une autre representation des polynomes par des listes 
de paires d'entiers et nous animerons le jeu des tours de Hanoi en montrant revolution 
de l'etat du jeu. Au passage, nous approfondirons le filtrage (appel explicite au fLl- 
trage, synonymes dans les nitres, filtrage multiple) et nous verrons des exemples de 
fonctionnelles sur les listes. 

5.1 Presentation 

Syntaxe 

Les listes sont des suites homogenes de valeurs, entourees de crochets [ et ] . Commc 
pour les tableaux, les elements des listes sont separes par un point-virgule « ; ». 

# [1; 2; 3];; 

- : int list = [1; 2; 3] 

Au contraire des tableaux, on n'accede pas directement a un element de liste : il faut 
parcourir sequentiellement la liste pour atteindre l'element recherche. En revanche, les 
listes peuvent grossir dynamiquement alors que les tableaux ont une taille determinee, 
fixee lors de leur construction. Cependant on ajoute toujours les elements au debut 
d'une liste et non a la fin. C'est contraire a la pratique courante : quand on tient a jour 
une liste de courses, on ajoute generalement la prochaine course a faire a la fin de sa 
liste . . . 

Toutes les listes sont construites avec les deux constructeurs de listes, « [] » (qu'on 
prononce «nil», d'apres l'anglais nil qui signifie neant et qui provient du latin nihil qui 
veut dire rien) et « : : » (qu'on prononce «conse», par abreviation de « constructeur de 
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liste»). [] est la liste vide et : : est l'operateur infixe qui ajoute un element en tete 
d'une liste. Tout comme le tableau vide, la liste vide est polymorphe. 

# □;; 

- : 'a list = [] 

# 0 : : [1; 2; 3] ;; 

- : int list = [0; 1; 2; 3] 

# 3 : : [] ; ; 

- : int list = [3] 

# 1 :: 2 :: 3 :: [] ; ; 

- : int list = [1; 2; 3] 



Representation graphique des listes 

Pour expliquer certaines fonctions qui manipulent des listes, nous representons 
graphiquement les calculs qu'elles effectuent. Pour cela nous dessinons les listes comme 
des peignes dont les dents contiennent les elements de la liste. Par exemple, la liste 
trois_entiers definie par: 
# let trois_entiers = [1; 2; 3];; 
trois_entiers : int list = [1; 2; 3] 

trois_entiers 

est representee par le schema ci-contre. ; ; 

Cette representation en peigne a l'avantage de mettre \ / x : : 

en evidence la construction de la liste a partir de ses 2 / X ; : 

elements, de la liste vide, et d'applications successives du 3 / x |--| 

constructeur « : : ». En effet, la liste trois_entiers vaut 
1 : : 2 : : 3 : : [] et vous aurez sans doute remarque ^ 
que la notation [e\; e2] ... ; e n ] est une abreviation pour 
e± :: e2 ■ : : e n : : [] . Lorsque nous expliquerons des e\ 
fonctions sur les listes, la liste argument la plus generale e ^ X . . . 

sera notee I et ses elements seront notes e±, e2, . . . , e n . \ . 

Cette liste la plus generale sera done decrite graphique- e / x [] 

ment par le peigne en marge. 



Filtrage des listes 

Le filtrage est etendu aux listes, si bien qu'on teste si une liste est vide avec la 
fonction suivante : 

# let nulle = function 

I [] -> true 
I _ -> false ; ; 
nulle : 'a list -> bool = <fun> 

Ce texte Caml se lit comme suit : si l'argument de la fonction nulle est la liste vide, 
alors retourner true ( [] -> true) ; dans tous les autres cas (_), retourner false. Par 
exemple : 

# (nulle [] ) , (nulle [1] ) ; ; 

- : bool * bool = true, false 



Programmation assistee par filtrage 
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De plus, il est possible de nommer la tete ou le reste d'une liste argument avec des 
nitres utilisant « : : ». 

# let tete = function 

I t : : r -> t 
I _ -> f ailwith "tete" ; ; 
te"te : 'a list -> 'a = <fun> 

# tete [1; 2; 3; 4] ; ; 

- : int = 1 

La clause t : : r -> t signifie : si la liste argument n'est pas vide et qu'on appelle 
sa tete t et son reste r (t : : r), alors retourner t. La clause I -> signifie comme 
d'habitude « dans tous les autres cas ». La fonction f ailwith est une fonction predeflnie 
qui signale une erreur : en anglais, f ailwith signifie « echouer avec ». Vous devinez done 
que f ailwith "tete" signale une erreur dans la fonction tete. 

# tete [] ; ; 

Exception non rattrapee: Failure "tete" 

Le systeme nous signale ainsi une exception non rattrapee («Uncaught exception »), 
e'est-a-dire un echec, avec pour message la chaine tete (Failure "tete"). Nous re- 
viendrons sur ce mecanisme d'echec et sur la notion d'exception au chapitre 7. 

Comme d'habitude, il n'est pas obligatoire de nommer une partie de la valeur argu- 
ment qu'on n'utilise pas. Par exemple, il n'est pas necessaire de nommer la tete d'une 
liste pour retourner son reste (on dit aussi la queue de la liste) : 

# let reste = function 

I _ : : r -> r 
I _ -> f ailwith "reste";; 
reste : 'a list -> 'a list = <fun> 

# reste [1; 2; 3; 4] ; ; 

- : int list = [2; 3; 4] 

5.2 Programmation assistee par filtrage 

II est facile de definir une fonction qui additionne tous les elements d'une liste 
d'entiers : si la liste est vide, alors le resultat est 0 ; sinon, on ajoute le premier element 
de la liste a la somme des elements du reste de la liste. 

# let rec somme = function 

I [] -> 0 

I x : : 1 -> x + somme 1 ; ; 
somme : int list -> int = <fun> 

On calcule le produit des elements d'une liste de fagon similaire. 

# let rec produit = function 

I □ -> 1 

I x : : 1 -> x * produit 1; ; 
produit : int list -> int = <fun> 

Ces deux dernieres fonctions sont des exemples representatifs : les fonctions sur 
les listes sont le plus souvent recursives et operent un filtrage sur la liste argument. 
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Generalement, la fonction s'arrete quand elle rencontre une liste vide et s'appelle 
recursivement quand la liste n'est pas vide. Le squelette general d'une telle fonction est 
done : 

let rec f = function 
I [] -> « valeur de base » 
I x : : 1 -> ... f (1) . . .;; 

Cela vous explique pourquoi les fonctions nulle, tete et reste ne sont guere employees 
en Caml : a quoi bon tester explicitement if nulle (1) then . . . else . . . , quand le 
filtrage permet de le faire bien plus elegamment. En effet, en n'employant pas le filtrage, 
le squelette general d'une fonction recursive sur les listes s'ecrirait bien plus lourdement : 

let rec f 1 = 
if nulle 1 
then « valeur de base » 

else let x = tete 1 and 1' = reste 1 in ... f (1') . . . ; ; 

Le modele general de fonction recursive definie par filtrage sur les listes est a rapprocher 
de celui qu'on a vu sur les entiers : 

let rec f = function 
I 0 -> « solution simple » 
I n -> ... f (n - 1) . . . ; ; 

Schematiquement, le squelette le plus general de fonctions recursives Caml est suggere 
par le pseudo-programme suivant : 

let rec f = function 

I « cas simple » -> « solution simple » 

I « autre cas simple » -> « autre solution simple » 

I « cas general » -> ... f (« cas plus simple ») ...;; 

II est done tres frequent que le filtrage dirige l'ecriture des fonctions. Par exemple, si 
Ton definit une fonction sur les listes, on ecrira (presque) sans reflechir : 

let rec f = function 
I [] -> 
I x : : 1 -> 

A titre d'entrainement avant d'attaquer les fonctionnelles d'usage general sur les listes, 
nous allons mettre en pratique cette « programmation assistee par filtrage » dans un cas 
simple : le tri des listes. 

5.3 Tri par insertion 

Nous implementons le tri par insertion, qui est un algorithme naturellement recursif. 
On suppose qu'une sous-partie du tableau a trier est deja triee et on y insere a la bonne 
place le prochain element de la partie non triee du tableau. Nous en donnons une version 
fonctionnelle sur les listes. 



Tri par insertion 
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Tri sur listes 

L'idee est qu'il est facile de ranger un element a sa place dans une liste d'elements 
deja triee. Nous supposons done avoir deja ecrit une fonction insere qui insere un 
element a la bonne place dans une liste triee. Nous ecrivons maintenant la fonction de 
tri. Cette fonction travaille sur des listes ; elle doit done envisager les deux cas possibles 
de listes : 

let tri_par_insertion = function 
I []->... 

I x : : reste -> ... ; ; 

Le cas de la liste vide est simple : une liste vide est evidemment triee ; on renvoie done 
la liste vide. 

let tri_par_insertion = function 
I [] -> [] 

I x : : reste -> ... ; ; 

Dans l'autre cas, on va commencer par trier le reste de la liste. C'est deja possible, bien 
que nous n'ayons pas encore ecrit notre fonction de tri : il suffit d'appeler recursivement 
la fonction tri_par_insertion que nous sommes justement en train d'ecrire . . . 
let rec tri_par_insertion = function 
I [] -> [] 

I x :: reste -> ... tri_par_insertion reste;; 

II nous suffit maintenant de mettre Pelement x a la bonne place dans le reste maintenant 
trie de la liste. C'est facile : on se contente d'appeler la fonction insere. Nous obtenons : 
let rec tri_par_insertion = function 
I [] -> [] 

I x : : reste -> insere x (tri_par_insertion reste) ; ; 

La fonction de tri est terminee. II nous reste a ecrire la fonction insere. Par le meme 
raisonnement que ci-dessus on commence par en ecrire le squelette : 
let insere element = function 

I []->... 

I x : : reste -> . . . ; ; 

Le cas de la liste vide est encore une fois simple : il suffit de retourner une liste reduite 
a Pelement qu'on souhaite inserer. 
let insere element = function 

I [] -> [element] 

I x : : reste -> . . . ; ; 

Dans l'autre cas, la liste ou l'on veut inserer element commence par x. Si element est 
plus petit que x alors c'est le plus petit de tous les elements de la liste x : : reste, 
puisque celle-ci est triee par hypothese. On place done element au debut de la liste x 
: : reste. 

let insere element = function 
I [] -> [element] 

I x : : reste -> if element <= x then element : : x : : reste else . . . ; ; 

Dans le cas contraire, c'est x le plus petit element de la liste resultat ; ce resultat sera 
done x : : ... II nous reste a inserer element dans la liste reste. Un petit appel 
recursif insere element reste et le tour est joue : 
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# let rec insere element = function 

I [] -> [element] 
I x : : reste -> 

if element <= x then element : : x : : reste 

else x : : (insere element reste) ; ; 
insere : 'a -> 'a list -> 'a list = <fun> 

II nous reste a definir effectivement la fonction de tri et a l'essayer : 

# let rec tri_par_insertion = function 

I □ -> [] 

I x : : reste -> insere x (tri_par_insertion reste) ; ; 
tri_par_ insertion : 'a list -> 'a list = <fun> 

# tri_par_insertion [3; 2; 1];; 
- : int list = [1; 2; 3] 

Synonymes dans les nitres 

Pour ameliorer la lisibilite du code de la fonction insere, nous introduisons une 
facilite de nommage supplementaire dans les nitres. 

II arrive que l'on veuille examiner la forme d'une valeur tout en nommant cette 
valeur. Considerez la fonction qui rend la valeur absolue d'un monome, represente 
comme une paire d'entier (coefficient, degre) : 

# let abs_monome = function 

(a, degre) -> if a < 0 then (-a, degre) else (a, degre) ; ; 
abs_monoine : int * ' a -> int * 'a = <fun> 

Ce code est parfaitement correct, mais dans le cas ou le coefficient est positif on aimerait 
rendre directement le monome recu en argument. Le code serait plus clair, puisqu'il 
n'y aurait pas besoin d'une petite gymnastique mentale pour se rendre compte que 
l'expression (a, degre) correspond exactement au nitre de la clause. Autrement dit, 
nous voudrions nommer monome le nitre (a, degre) et rendre monome quand a est 
positif. Dans ce cas, on introduit le nom choisi avec le mot-cle as (qui se prononce 
«ase» et signifie «en tant que» en anglais). 

Synonymes dans les filtres ::= filtre as nom 

Nous obtenons : 

# let abs_monome = function 

(a, degre) as monome -> if a < 0 then (-a, degre) else monome;; 
abs_monome : int * ' a -> int * 'a = <fun> 

Maintenant le nommage indique a l'evidence qu'aucune transformation n'est faite sur le 
monome, alors que l'expression (a, degre), bien qu'equivalente, cache un peu qu'elle 
n'est autre que l'argument de la fonction. 

Pour la fonction insere, l'usage d'un filtre synonyme pour nommer la liste argument 
clarifie egalement un peu le code : 

# let rec insere element = function 

I [] -> [element] 

I x : : reste as 1 -> 

if element <= x then element : : 1 

else x : : (insere element reste) ; ; 
insere : 'a -> 'a list -> 'a list = <fun> 
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Generalisation du tri a tout type d'ordre 

Pour generaliser la fonction de tri a toute sorte d'ordres, il suffit de passer la fonction 
de comparaison en argument, comme on l'a vu au chapitre 4. Les fonctions insere et 
tri_par_insertion prennent alors un argument supplement aire, ordre, qu'on utilise 
pour comparer les elements, a la place de la comparaison <=. 

# let rec insere ordre element = function 

I [] -> [element] 

I x : : reste as 1 -> 

if ordre element x then element : : 1 

else x : : (insere ordre element reste) ; ; 
insere : ('a -> 'a -> bool) -> 'a -> 'a list -> 'a list = <fun> 

# let rec tri_par_insertion ordre = function 

I □ -> [] 

I x : : reste -> insere ordre x (tri_par_insertion ordre reste) ; ; 
tri_par_ insertion : ('a -> 'a -> bool) -> 'a list -> 'a list = <fun> 

La meme fonction nous permet maintenant de trier indifferemment des listes de chaines 
ou de nombres, a l'endroit ou a l'envers : 

# tri_par_insertion (function x -> function y -> x <= y) [3; 1; 2];; 

- : int list = [1; 2; 3] 

# tri_par_insertion (function x -> function y -> x >= y) [3; 1; 2];; 

- : int list = [3; 2; 1] 

# tri_par_insertion (function x -> function y -> ge_string x y) 

["Salut "; "les " ; "copains ! "] ; ; 

- : string list = ["les "; "copains!"; "Salut "] 

# tri_par_insertion (function x -> function y -> le_string x y) 

["Salut "; "les " ; "copains!"];; 

- : string list = ["Salut "; "copains!"; "les "] 

Remarque de complexity : on demontre que ce tri est quadratique (0(n 2 )) en moyenne 
(sur un jeu de donnees tirees au hasard). Dans le pire des cas, c'est-a-dire quand le 
jeu de donnees necessite le plus d'operations (ce qui correspond pour ce tri a une liste 
triee en ordre inverse), le tri par insertion est egalement quadratique. En revanche, il 
est lineaire pour une liste deja triee. 

5.4 Fonctionnelles simples sur les listes 

Les listes, comme toutes les structures de donnees polymorphes, se pretent naturelle- 
ment a la definition de fonctionnelles reutilisables dans de nombreuses situations. Nous 
presentons dans cette section quelques-unes de ces fonctionnelles, parmi les plus sim- 
ples ; nous en verrons d'autres, plus complexes, a la section 5.9. 

Faire une action sur les elements d'une liste 

Etant donnees une fonction / et une liste la fonctionnelle do_list applique / 
tour a tour a tous les elements de /. Cela correspond done a effectuer des appels a / 
en sequence sur les elements de /. Autrement dit, evaluer do_list / [ei; e2', ... ; e n ] 
signifie executer la sequence begin / e±; f e2\ e n ; () end. Par exemple: 



82 



Listes 



# do_list print_int [1; 2; 3];; 
123- : unit = () 

# do_list (function i -> print_int i; print_char 1 ') [1; 2; 3];; 
12 3-: unit = () 

Ecrivons do_list : 

# let rec do_list f = function 

I □ -> 0 

I x : : 1 -> f x; do_list f 1; ; 
do_list : ('a -> 'b) -> 'a list -> unit = <fun> 

Le raisonnement est le suivant : si la liste argument est vide, il n'y a rien a faire. Sinon, 
la liste argument est de la forme x : : 1, car elle n'est pas vide. En ce cas, il faut 
evaluer en sequence f (x) , puis Paction de f sur le reste de la liste, qu'on obtient par 
un appel recursif a do_list. 

Remarquons que le type de la fonction do_list indique clairement que la fonction 
/ doit accepter en argument les elements de la liste, puisque / a pour type 'a -> 'b et 
que la liste a pour type 'a list. En revanche, les resultats des appels a / sont ignores : 
/ peut rendre un resultat de n'importe quel type. 



Appliquer a tous les elements d'une liste 

Etant donnees une fonction / et une liste /, la fonctionnelle map retourne la liste des 
resultats obtenus en appliquant / a chaque element de I. Par exemple, map successeur 
[1;2;3] retourne la liste [2 ; 3 ; 4] , tandis que map carre [1;2;3] retourne [1;4;9]. 
L'expression map / [ei; e% ■■■ \ e n ] retourne done la liste [/ e\\ f e% ... ; / e n ]. 
Graphiquement, la fonction map «distribue» / sur les elements de la liste argument : 

, map / 

I map / / 

/ \ „ / ' \ 

ei : : / ei : : 
/ \ / \ 

e2 • • • J e.2 

Le nom map provient du langage Lisp et signifie « application multiple ». La fonction 
s'ecrit tres simplement : si la liste argument est vide le resultat est la liste vide. Sinon, 
la liste argument est de la forme x : : 1 et il suffit de mettre en tete du resultat 
Papplication de f a x, le reste du resultat etant fourni par un appel recursif a map. 

# let rec map f = function 

I □ -> [] 

I x : : 1 -> f x : : map f 1 ; ; 
map : ('a -> 'b) -> 'a list -> 'b list = <fun> 

Cette fois-ci le type d'arrivee de la fonction f n'est plus ignore : il doit etre identique 
au type des elements de la liste des resultats. 

# map succ [1 ; 2; 3] ; ; 

- : int list = [2; 3; 4] 



Les polynomes creux 
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# map string_length ["Bonjour"; "tout"; "le "; "monde!"];; 
- : int list = [7; 4; 3; 6] 

Nous allons utiliser nos nouvelles connaissances sur les listes pour calculer des 
polynomes qui nous etaient precedemment inaccessibles. 

5.5 Les polynomes creux 

Une representation affinee 

Notre premier programme de manipulation des polynomes (section 3.3) representait 
les polynomes par des tableaux d'entiers. Cette representation est tres dispendieuse 
quand les polynomes ont peu de monomes dont les degres sont tres differents : il serait 
insupportable de representer le polynome 1 + x 10000 par un tableau a 10001 cases dont 
9999 comporteraient des zeros ! Les polynomes ayant cette propriete d'avoir une forte 
proportion de coefficients nuls sont appeles polynomes creux. Par opposition nous avions 
appele polynomes pleins les polynomes de la section 3.3, representes par le tableau 
des coefficients de leurs monomes. Une representation plus compacte des polynomes 
creux utilise tout naturellement la liste ordonnee des coefficients non nuls, avec leurs 
degres respectifs. II s'agit done de listes de paires d'entiers. Dans cette representation, 
le polynome 1 + 2X 3 serait : 

# let p = [(1, 0); (2, 3)];; 

p : (int * int) list = [1, 0; 2, 3] 

Nous allons redefinir les operations sur les polynomes, en travaillant sur des polynomes 
creux. 

Impression des polynomes creux 

L 'impression est tres simple : nous utilisons exactement la meme fonction 
d'impression des monomes que dans le cas des polynomes pleins, mais nous Piterons 
sur la liste des coefficients a l'aide de la fonctionnelle do_list. 

# let imprime_polyn6me_creux p = 

do_list (function (a, degre) -> imprime_mon6me a degre) p;; 
imprime_polyndme_ creux : (int * int) list -> unit = <fun> 

# imprime_polyn6me_creux p;; 
1 + 2x~3- : unit = () 

(Les amateurs de casse-tete compareront la fonction imprime_polyn6me_creux avec la 
fonction do_list (uncurry imprime_mon6me) ou meme compose do_list uncurry 
imprime_mon6me.) 

L'addition est un peu plus compliquee. En effet, elle opere un filtrage en parallele sur 
les deux polynomes arguments. Ce filtrage est complexe et utilise des traits nouveaux 
pour nous. Nous les detaillons avant d'analyser le code de l'addition des polynomes 
creux. 
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5.6 Filtrage explicite 

La construction match . . . with 

Pour filtrer ses deux arguments en parallele, la fonction d'addition des polynomes 
utilise un appel explicite au filtrage, mecanisme introduit par le mot-cle match: 

Appel explicite au filtrage ::= match expression 

with filtrage 

Cette construction a la semantique d'une conditionnelle par cas, ou encore d'un if 
generalise travaillant par filtrage. Redefinissons la fonction nulle avec un appel explicite 
au filtrage : on demande explicitement d'examiner la forme de la liste 1 argument de 
nulle et Ton renvoie dans chaque cas l'expression adequate. 

# let nulle 1 = 

match 1 with 
I [] -> true 
I _ -> false ; ; 
nulle : 'a list -> bool = <fun> 

On lit ce filtrage comme la phrase : si la liste 1 est vide, renvoyer true ; dans tous les 
autres cas, renvoyer false. 

En utilisant le filtrage explicite, nous pouvons tres facilement ecrire la fonction qui 
concatene deux listes : si la premiere liste est vide, le resultat est la deuxieme ; sinon, il 
faut mettre la tete de la premiere liste devant la concatenation du reste de cette liste 
avec la deuxieme liste. Ce qui, parce que bien congu, s'enonce clairement ainsi : 

# let rec concatene 11 12 = 

match 11 with 
I □ -> 12 

I x :: reste -> x : : concatene reste 12;; 
concatene : 'a list -> 'a list -> 'a list = <fun> 

# concatene [1; 2; 3] [4; 5; 6];; 
- : int list = [1; 2; 3; 4; 5; 6] 

Filtrage simultane de deux valeurs 

Pour envisager tous les cas concernant la forme de deux listes, il suffit de filtrer 
explicitement la paire des deux listes. Ainsi, la fonction suivante determine si deux 
listes ont meme longueur : 

# let rec meme_longueur 11 12 = 

match (11, 12) with 
I ( [] , [] ) -> true 

I (_ : : restel, _ :: reste2) -> meme_longueur restel reste2 
I (_, _) -> false; ; 
meme_long'ueur : 'a list -> 'b list -> bool = <fun> 



# meme _ longueur [1] [2] ; ; 
- : bool = true 



# meme_longueur [1] [1; 2];; 
- : bool = false 
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Le filtre (_ : : restel, _ : : reste2) signifie: si la premiere liste 11 n'est pas vide 
et done de la forme _ : : restel et si simultanement la seconde liste 12 est non vide 
et de la forme _ : : reste2, alors . . . En particulier, les soulignes « _ » mettent bien en 
evidence qu'on ne s'interesse pas a la tete des listes, mais qu'on a nomme leurs restes 
respectifs restel et reste2. Remarquez que le dernier cas du filtrage correspond a des 
listes d'inegales longueurs: l'une est epuisee mais l'autre ne l'est pas. En effet, si les 
deux etaient epuisees le premier cas s'appliquerait, tandis que si aucune n'etait epuisee, 
e'est le second qui s'appliquerait. Autrement dit : le cas (_, _) regroupe en une seule 
clause les deux cas ( [] , _ :: _) -> false et (_ :: _, [] ) -> false. 

Remarquons egalement que le filtrage simultane ne necessite pas les parentheses des 
couples ; la construction permet de filtrer des expressions separees par des virgules avec 
leurs nitres respectifs, eux aussi separes par des virgules : 

match 11, 12 with 
I [] , [] -> true 

I _ :: restel, _ :: reste2 -> . . . 

5.7 Operations sur les polynomes creux 

Addition des polynomes creux 

L' addition des polynomes creux va analyser recursivement ses deux arguments pour 
en construire la somme. Comme nous l'avons vu dans le cas des polynomes pleins, il 
arrive que certains termes d'un des deux polynomes arguments n'aient pas de corre- 
spondants dans l'autre, parce que les polynomes n'ont pas le meme degre. Dans le cas 
des polynomes creux, l'une des listes de monomes sera epuisee avant l'autre. Si nous 
atteignons ainsi la fin de l'un des polynomes, l'autre constitue le resultat cherche : par 
exemple, si l'on ajoute un polynome Pq reduit a une constante a un autre polynome P, 
il faut ajouter les deux monomes de degre 0 de P et Pq, mais le resultat comprend aussi 
la liste des monomes restants de P. En effet, les coefficients manquants du polynome de 
plus bas degre correspondent a des zeros implicites. Dans le cas general, nous ajoutons 
les termes de meme degre ou recopions dans le resultat final les termes qui n'ont pas 
d'analogue dans l'autre polynome. 

# let rec ajoute_polynomes_creux pi p2 = 
match pi, p2 with 
I _, □ -> pi 
I [],_-> p2 

I (al, degrel as ml) :: restel, (a2, degre2 as m2) :: reste2 -> 
if degrel = degre2 

then ((al + a2) , degrel) :: ajoute_polynomes_creux restel reste2 
else if degrel < degre2 

then ml : : ajoute_polynomes_creux restel p2 
else m2 :: ajoute_polynomes_creux pi reste2;; 
ajoute_polynomes_ creux : 
(int * 'a) list -> (int * 'a) list -> (int * 'a) list = <fun> 

Le filtre (al, degrel as ml) :: restel, (a2,degre2 as m2) :: reste2 est com- 
plexe et necessite une explication. II est clairement constitue de deux filtres analogues 
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separes par une virgule, l'un pour filtrer pi et l'autre pour filtrer p2. Examinons celui 
qui concerne pi. Le nitre (al, degrel as ml) : : restel signifie que: 

• pi est une liste non vide dont la tete est filtree par (al, degrel as ml) et le 
reste est nomme restel, 

• la tete de pi est done un couple dont les composantes sont nominees al et degrel, 

• le couple lui-meme, (al, degrel), est nomme ml grace au nitre synonyme as 
ml. 

Admirons au passage la puissance et Pelegance du mecanisme de flltrage. Remarquez 
egalement que les nitres sont essayes dans l'ordre de presentation dans le filtrage. Par 
exemple, la valeur ( [] , [] ) sera filtree par le premier filtre, bien qu'elle soit aussi 
filtrable par le second. A titre d'exemple, nous calculons la somme des polynomes 
X 2 + 3X 4 et 3 + 2X 2 + 5X W . 

# imprime_polyn6me_creux 

(ajoute_polynomes_creux [(1,2); (3,4)] [(3,0); (2,2); (5,10)]);; 
3 + 3x~2 + 3x~4 + 5x~10- : unit = () 

Multiplication des polynomes creux 

La multiplication opere egalement par filtrage simultane de ses deux arguments. 
Dans le cas oil l'un des polynomes est epuise, il n'y a plus de multiplication a faire. En ef- 
fet, les monomes manquants ont implicitement des coefficients nuls, done les multiplica- 
tions produiront toujours des coefficients nuls. En ce cas, le resultat est done la liste vide. 
Sinon, on applique simplement la regie habituelle de distributivite de la multiplication 
par rapport a l'addition. Voyons : soit mi le premier monome de Pi et reste\ les autres 
monomes de Pi. On a Pi = m\ + reste\, done Pi x P 2 = mi x P 2 + reste\ x P 2 . Si Ton ap- 
pelle notre fonction multiplie_polynomes_creux, alors reste\ xP 2 correspond a l'appel 
recursif multiplie_polynomes_creux restel p2. Quant a l'expression mi x P 2 , e'est 
un cas plus simple ou Ton multiplie un polynome par un monome. Nous le traiterons par 
la fonction auxiliaire multiplie_par_monome_creux. L'expression m\ x P 2 + restei x P 2 
s'ecrit done : 

ajoute_polynomes_creux 

(multiplie_par_mon6me_creux ml p2) 
(multiplie_polynomes_creux restel p2) 

II reste a definir multiplie_par_monome_creux. Si m\ est le monome et P le polynome, 
il sufflt de multiplier chaque monome de P par le monome mi, ce qui se fait simplement 
en multipliant les coefficients et en ajoutant les degres. En resume : 

# let multiplie_par_monome_creux (al, degrel) p = 

map (function (a, degre) -> (a * al , degrel + degre)) p; ; 
multiplie_par_mondme_creux : 
int * int -> (int * int) list -> (int * int) list = <fun> 

# let rec multiplie_polynomes_creux pi p2 = 

match pi, p2 with 
I (_, []) -> □ 
I (□,_)-> □ 
I (ml : : restel , _) -> 
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ajoute_polynomes_creux 

(multiplie_par_mon6me_creux ml p2) 
(multiplie_polyn6mes_creux restel p2) ; ; 
multiplie_polyndmes_creux : 
(int * int) list -> (int * int) list -> (int * int) list = <fun> 

Nous calculons (1 + X 10000 ) 2 a titre d'exemple : 

# let p = [(1, 0); (1, 10000)] in 
imprime_polyn6me_creux (multiplie_polynomes_creux p p) ; ; 

1 + 2x~ 10000 + x~20000- : unit = () 

En premiere lecture, vous en savez largement assez pour passer des maintenant au 
chapitre suivant. 

Polymorphisme et regie r\ 

Nous devons signaler ici une petite difficulte qui apparait lorsqu'on utilise la regie r\ 
pour simplifler une definition, lorsque le resultat doit etre polymorphe. Supposons que 
nous definissions le tri par ordre croissant ainsi : 

# let tri_croissant 1 = 

tri_par_insertion (function x -> function y -> x <= y) 1;; 
tri_croissant : 'a list -> 'a list = <fun> 

On peut esperer simplifier cette definition a l'aide de la regie r], en supprimant 
1' argument 1 : 

# let tri_croissant = 

tri_par_insertion (function x -> function y -> x <= y) ; ; 
tri_croissant : ' _a list -> ' _a list = <fun> 

On constate alors que la fonction tri_croissant n'a plus le meme type, et qu'il ap- 
parait dans ce type d'etranges parametres de type ' _a. Au contraire des parametres ' a 
qui signifient pour tout type a, et denotent done des types polymorphes, les parametres 
' _a signifient pour un certain type a qui sera determine par les utilisations ulterieures 
de la fonction. La fonction tri_croissant est done monomorphe : 

# tri_croissant [3; 2; 1];; 

- : int list = [1; 2; 3] 

# tri_croissant; ; 

- : int list -> int list = <fun> 

# tri_croissant ["Bonjour"] ; ; 
Entree interactive: 

>tri_ croissant ["Bonjour"] ; ; 
> 

Cette expression est de type string list, 
mais est utilisee avec le type int list. 

Le type inconnu ' _a est devenu le type int et la fonction tri_croissant est dorenavant 
de type int -> int. 

Ce phenomene est du a la coexistence en Caml du polymorphisme et des structures 
mutables. II est explique en details a la fin de ce livre, page 363, lorsque nous aurons 
vu les mecanismes qui permettent de le comprendre. Retenons pour l'instant que seule 
les fonctions (et les constantes) sont susceptibles d'etre polymorphes, les definitions de 
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fonctions obtenues par application partielle d'une fonction plus generale sont monomor- 
phes. Nous avons deja constate (page 73) que l'application de la regie r\ peut modifier 
le type d'une fonction, le rendant plus general ; ici, c'est l'inverse : on passe d'un type 
polymorphe a un type monomorphe moins general. 

5.8 Animation des tours de Hanoi 

En guise d'exercice sur les listes, nous definissons un ensemble de fonctions qui ma- 
nipulent des listes de chaines pour animer visuellement le jeu des tours de Hanoi. C'est 
un vrai programme qui utilise des references et la recursivite. Cela reste cependant un 
exercice : nous n'avons aucun souci d'efficacite ici. Ce genre de programme d'impression 
elaboree (le formatage) est plus du ressort de la modification physique de chaines de 
caracteres que de la manipulation de listes. 

# let blancs n = make_string n ' 1 ; ; 
blancs : int -> string = <fun> 

# let disque taille = 

let moitie_droite = make_string taille '>' 
and moitie_gauche = make_string taille '<' 
in moitie_gauche " "I" " moitie_droite ; ; 
disque : int -> string = <fun> 

Ces deux fonctions construisent respectivement la representation sous forme d'une 
chaine d'une ligne vide de longueur n et d'un disque de largeur taille. Par exemple, 
le disque de largeur 3 est represente par la chaine "<<< I »>" : la chaine " I " represente 
un morceau de tige et "«<" et "»>" les parties gauche et droite du disque. 

La fonction suivante construit un disque, pose sur une tige, c'est-a-dire entoure d'un 
certain nombre d'espaces, de facon a ce que le disque occupe la meme largeur que la 
tige sur laquelle il est pose : 

# let disque_numero n taille_grand_disque = 

let partie_blanche = blancs (taille_grand_disque + 1 - n) in 
partie_blanche " (disque n) " partie_blanche ; ; 
disque_numero : int -> int -> string = <fun> 

La derniere fonction dessine la base d'une tige sous la forme " I " . 

# let base_de_tige taille_grand_disque = 

let moitie = make_string taille_grand_disque '_' in 
" " " moitie " " I " " moitie " " "; ; 
base_de_tige : int -> string = <fun> 

Un disque est represente par un simple numero : sa largeur. Une tige est representee 
par un couple (entier, liste d'entiers). La premiere composante est le nombre de cases 
libres en haut de la tige, la seconde la liste des disques poses sur la tige. La fonction 
t ige suivante construit la liste des chaines de caracteres representant les disques poses 
sur une tige. 

# let rec tige taille_grand_disque = function 

I (0, []) -> [] 

I (0, tete : : reste) -> 

disque_numero tete taille_grand_disque : : 
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tige taille_grand_disque (0, reste) 
I (decalage, liste) -> 

disque _numero 0 taille_grand_disque : : 
tige taille_grand_disque (decalage-1, liste);; 
tige : int -> int * int list -> string list = <fun> 

Par exemple, voici ce qu'on obtient pour la tige (1, [2; 3; 5] ), c'est-a-dire une case 
libre, puis trois disques de largeur 2, 3 et 5 : 

# let imprime ligne = print_string ligne; print_newline () ; ; 
imprime : string -> unit = <fun> 

# do_list imprime (tige 5 (1, [2; 3; 5]));; 

I 

« | » 
«< | »> 
««< | »»> 
- : unit = () 

Par la suite, nous allons avoir besoin d'afficher non pas une tige, mais trois tiges cote 
a cote. La fonction recolle cree la liste des lignes a afficher a partir des trois listes de 
lignes correspondant aux trois tiges. 

# let rec recolle 11 12 13 = 

match 11, 12, 13 with 

I [], [], □ -> □ 

I tl : : rl, t2 : : r2, t3 : : r3 -> 

(tl ~ t2 ~ t3) : : recolle rl r2 r3 
I _ -> failwith "recolle";; 
recolle : string list -> string list -> string list -> string list = <fun> 

L'affichage d'une configuration consiste simplement a imprimer les lignes qui 
representent les disques, puis a imprimer les trois bases des tiges. 

# let imprime_jeu nombre_de_disques depart milieu arrivee = 

let dessin = 

recolle (tige nombre_de_disques depart) 

(tige nombre_de_disques milieu) 

(tige nombre_de_disques arrivee) in 
do_list imprime dessin; 

let b = base_de_tige nombre_de_disques in imprime (b ~ b " b) ; ; 
imprime_jeu : 

int -> int * int list -> int * int list -> int * int list -> unit = <fun> 

Nous implementons maintenant les deplacements de disques d'une tige a l'autre. Voyons 
tout d'abord la fonction qui ajoute un disque au sommet d'une tige. Par exemple, dans 
un jeu a quatre disques, ajouter le troisieme disque a une tige qui ne comprend que le 
disque numero 4 correspond a revaluation de ajoute_disque 3 (2, [4] ) , qui retourne 
(1, [3; 4]). 

# let ajoute_disque disque (decalage, disques as tige) = 

(decalage - 1, disque :: disques);; 
ajoute_disque : 'a -> int * 'a list -> int * 'a list = <fun> 

On definit la fonction sommet pour consulter le disque qui se trouve au sommet d'une 
tige et la fonction enleve_sommet pour oter le sommet d'une tige (plus exactement, 
pour renvoyer la tige privee de son sommet). 



90 



Listes 



# let sommet = function 

I (decalage, sommet : : reste) -> sommet 
I (decalage, [] ) -> failwith "sommet: tige vide";; 
sommet : 'a * 'b list -> 'b = <fun> 

# let enleve_sommet = function 

I (decalage, sommet :: reste) -> (decalage + 1, reste) 
I (decalage, [] ) -> failwith "enleve_sommet : tige vide";; 
enleve_sommet : int * 'a list -> int * 'a list = <fun> 

Nous pouvons maintenant simuler un mouvement en deplagant un disque d'une tige a 
l'autre. La procedure prend en argument des references sur les tiges concernees et les 
modifie physiquement au passage. 

# let deplace (nom_depart, tige_depart) (nom_arrivee , tige_arrivee) = 

imprimeC'Je deplace un disque de " 

nom_depart " a " nom_arrivee) ; 
let disque_deplace = sommet !tige_depart in 
tige_depart := enleve_sommet ! tige_depart ; 

tige_arrivee := ajoute_disque disque_deplace ! tige_arrivee ; ; 
deplace : 

string * (int * 'a list) ref -> string * (int * 'a list) ref -> unit = 
<fun> 

La modelisation de l'etat initial du jeu necessite la definition d'une tige vide et d'une 
tige pleine, en fonction du nombre de disques utilises. 

# let tige_vide nombre_de_disques = (nombre_de_disques , [] ) ; ; 
tige_vide : 'a -> 'a * 'b list = <fun> 

# let tige_pleine nombre_de_disques = 

let rec liste_des_disques i = 

if i <= nombre_de_disques 

then i : : liste_des_disques (i + 1) 

else [] in 
(0, liste_des_disques 1);; 
tige_pleine : int -> int * int list = <fun> 

Nous definissons maintenant une procedure de resolution complete incluant les fonc- 
tions d'impression. Nous maintenons l'etat des trois tiges a l'aide de trois references, 
gauche, milieu et droite. Remarquez que la procedure recursive locale hanoi 
prend ces trois references en argument et qu'elles sont modifiees physiquement par la 
procedure deplace. 

# let jeu nombre_de_disques = 

let gauche = ref (tige_pleine nombre_de_disques) 
and milieu = ref (tige_vide nombre_de_disques) 
and droite = ref (tige_vide nombre_de_disques) in 
let rec hanoi hauteur depart intermediaire destination = 
if hauteur > 0 then 
begin 

hanoi (hauteur - 1) depart destination intermediaire; 
deplace depart destination; 

imprime_jeu nombre_de_disques ! gauche ! milieu ! droite; 
hanoi (hauteur - 1) intermediaire depart destination 
end in 
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# j eu 3 ; ; 

J'appelle les tiges A, B et C. 
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- : unit = () 



Figure 5.1: Resolution des tours de Hanoi a 3 disques 

imprime "J'appelle les tiges A, B et C"; 
imprime "Position de depart:"; 

imprime_jeu nombre_de_disques ! gauche ! milieu Idroite; 
hanoi nombre_de_disques 

("A", gauche) ("B", milieu) ("C", droite) ; ; 
jeu : int -> unit = <fun> 

La figure 5.1 montre le deroulement de jeu 3. 

5.9 Fonctionnelles complexes sur les listes 

Nous allons maintenant passer en revue un certain nombre de fonctionnelles clas- 
siques sur les listes. Elles sont d'un emploi plus rare que celles que nous avons deja 
vues. Nous les utiliserons dans les exemples les plus difficiles. Vous pourrez alors vous 
reporter aux explications qui suivent. 

Notion d'abstraction de schemas de programmes 

Vous vous souvenez sans doute que pour generaliser les fonctions de tri du chapitre 4 
et du present chapitre, il nous avait suffi de passer la comparaison en parametre. Nous 
avions dit que nous avions « abstrait » l'ordre. Les fonctionnelles que nous allons decrire 
sont egalement basees sur la notion d'abstraction. Cependant, dans ce cas il ne s'agit 
pas d'abstraire une fonction qui intervient dans le programme pour le generaliser, mais 
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d'abstraire un schema de programme, c'est-a-dire une methode de calcul commune 
a plusieurs algorithmes. Pour degager cette methode de calcul, nous allons montrer 
plusieurs fonctions qui Putilisent. Nous rappelons d'abord le code des fonctions somme 
et produit, definies ci-dessus ; puis nous ecrivons la fonction implose, qui renvoie la 
concatenation de toutes les chaines d'une liste et enfin la fonction concatene_listes 
qui concatene toutes les listes d'une liste de listes (ce dernier exemple utilise la fonction 
predefinie @ qui concatene deux listes). 



# let rec somme = function 
I [] -> 0 

I x : : 1 -> x + somme 1 ; ; 
somme : int list -> int = <fun> 



# let rec produit = function 
I □ -> 1 

I x : : 1 -> x * produit 1; ; 
produit : int list -> int = <fun> 



# let rec implose = function 

I □ -> "" 

I x : : 1 -> x implose 1; ; 
implose : string list -> string = <fun> 

# implose ["Bonjour"; "tout"; "le "; "monde!"];; 

- : string = "Bonjourtoutle monde!" 

# let rec concatene_listes = function 

I □ -> [] 

I x :: 1 -> x @ concatene_listes 1;; 
concatene_listes : 'a list list -> 'a list = <fun> 

# concatene_listes [[1]; [2; 3]; [4; 5; 6]];; 

- : int list = [1; 2; 3; 4; 5; 6] 

On constate que toutes ces fonctions utilisent le meme schema recursif : en cas de liste 
vide, on rend un certain element de base ; en cas de liste non vide, on appelle une 
fonction a deux arguments, avec pour premier argument la tete de la liste et pour 
second argument un appel recursif sur la fin de la liste. Pour somme l'element de base 
est 0 et l'operation est +, pour produit c'est 1 et *, pour implose c'est "" et ~, 
enfin pour concatene_listes c'est [] et @. Pour obtenir notre fonctionnelle generale 
qui implemente ce schema de programme, il nous suffit done d'abstraire la fonction et 
l'element de base. 

Une petite remarque syntaxique au prealable : toutes les operations utilisees ici sont 
infixes. Pour ecrire la fonctionnelle, nous utilisons un argument fonctionnel normal 
(done prefixe) . II faut done relire le code des exemples avec des operations prefixes : par 
exemple pour somme, l'operation prefixe correspondant a + est la fonction predefinie 
add_int, c'est-a-dire function x -> function y -> x + y. Notre fonctionnelle 
s'ecrit maintenant tres facilement : 

# let rec iterateur_sur_listes f b = function 

I □ -> b 

I x : : 1 -> f x (iterateur_sur_listes f b 1) ; ; 
iterateur_sur_listes : ('a -> 'b -> 'b) -> 'b -> 'a list -> 'b = <fun> 

Pour definir somme en utilisant l'iterateur, on ecrira simplement : 

# let somme 1 = iterateur_sur_listes add_int 0 1;; 
somme : int list -> int = <fun> 
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# somme [1; 2; 3] ; ; 

- : int = 6 

D'autres programmes ressortissent du meme schema. Considerons par exemple la fonc- 
tion qui calcule la longueur d'une liste, qui est predennie en Caml sous le nom de 
list_length. Elle s'ecrit sans dimculte : 

# let rec list_length = function 

I [] -> 0 

I x : : 1 -> 1 + list_length 1;; 
list_length : 'a list -> int = <fun> 

C'est encore le meme schema: l'element de base est 0, l'operation est l'addition de 1. 
On peut done ecrire 

# let list_length 1 = 

iterateur_sur_listes (function x -> function y -> 1 + y) 0 1;; 
list_lengt.h : 'a list -> int = <fun> 

# list_length [0; 3; 5; 7];; 

- : int = 4 

On ecrit de meme la concatenation des listes, a l'aide d'une fonction auxiliaire devant 
qui recopie une liste devant une autre. 

# let rec devant 12 = function 

I □ -> 12 

I x : : 1 -> x : : devant 12 1 ; ; 
devant : 'a list -> 'a list -> 'a list = <fun> 

# devant [4; 5; 6] [1; 2; 3];; 

- : int list = [1; 2; 3; 4; 5; 6] 

# let concatene 11 12 = devant 12 11;; 
concatene : 'a list -> 'a list -> 'a list = <fun> 

La fonction devant suit egalement le meme schema, avec element de base 12 et 
operation « : : ». 

# let devant 12 = 

iterateur_sur_listes (function x -> function y -> x :: y) 12;; 
devant : 'a list -> 'a list -> 'a list = <fun> 

# devant [4; 5; 6] [1; 2; 3] ; ; 

- : int list = [1; 2; 3; 4; 5; 6] 

Notion d'accumulation recursive 

Un autre schema recursif qui revient souvent est Paccumulation. Par exemple, pour 
ecrire la fonction somme, il est naturel d'ajouter les elements de la liste a un accumula- 
teur, qu'on rendra en resultat quand on arrivera a la fin de la liste. Nous sommes done 
amenes a ecrire la fonction somme_accu suivante, qui accumule les elements d'une liste 
dans son accumulateur argument accu: 

# let rec somme_accu accu = function 

I [] -> accu 

I x :: 1 -> somme_accu (x + accu) 1;; 
somme_accu : int -> int list -> int = <fun> 
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II est clair qu'on obtient la somme des elements d'une liste en appelant somme_accu 
avec un accumulateur valant initialement 0. 

# let somme 1 = somme_accu 0 1;; 
somme : int list -> int = <fun> 

# somme [1; 2; 3] ; ; 

- : int = 6 

La fonctionnelle generale correspondant au code de somme_accu est simplement : 

# let rec accumulateur_sur_listes f accu = function 

I [] -> accu 

I x :: 1 -> accumulateur_sur_listes f (f x accu) 1;; 
accumulateur_sur_listes : ('a -> 'b -> 'b) -> 'b -> 'a list -> 'b = <fun> 

La fonction somme_accu s'obtient maintenant en utilisant accumulateur_sur_listes 
avec l'addition : 

# let somme_accu 1 = 

accumulateur_sur_listes 

(function x -> function accu -> x + accu) 1;; 
somme_accu : int -> int list -> int = <fun> 

# let somme 1 = somme_accu 0 1;; 
somme : int list -> int = <fun> 

# somme [1 ; 2 ; 3] ; ; 

- : int = 6 

Les fonctionnelles predefinies en Caml sont analogues a celles que nous venons de 
degager, avec cependant des differences minimes. La fonctionnelle iterateur_sur_listes 
correspond a list_it et accumulateur_sur_listes est equivalente a it_list. Nous 
decrivons maintenant ces fonctionnelles predefinies en leur donnant une interpretation 
graphique. 

Accumuler avec les elements d'une liste 

Etant donnes trois arguments /, b et I, la fonctionnelle it_list effectue de multiples 
compositions de la fonction a deux arguments /, en utilisant les elements de la liste 
/ comme seconds arguments de /. La valeur de base b est utilisee pour le premier 
argument du premier appel a /, puis le resultat de chaque appel a / est passe en 
premier argument de l'appel suivant. it_list est caracterisee par: 

it.list / b [ei; e 2 ; ... ; e n ) = (/(... (/ (/ b e{) e 2 ) . . .) e n ). 

Le code de it_list est : 

# let rec it_list f b = function 

I □ -> b 

I x : : 1 -> it_list f (f b x) 1;; 
it_list : ('a -> 'b -> 'a) -> 'a -> 'b list -> 'a = <fun> 

Intuitivement, si Ton peut dire, it_list fait de la «reecriture de liste » : elle remplace 
tous les ; de la liste par / (considered comme un operateur binaire infixe) et ajoute la 
valeur initiale b au premier appel a /. Graphiquement, l'effet calculatoire de it_list 
se represente par la transformation : 
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it-list . . r i i 

I »► it.list / I b 

f 

/ \ ✓ \ 

d : : J e n 

/ \ / \ 

e2 ... e„_i 

/' 

e n [] 0 ei 

Par exemple, supposons que / soit l'addition +. Nous obtenons 

it_list / b [ei; e 2 ; . . . ; e n ] = 6 + ei + e 2 + • • • + e n . 

Maintenant nous pouvons ecrire la fonction somme en utilisant it_list : 

# let ajoute x y = x + y; ; 
ajoute : int -> int -> int = <fun> 

# let somme 1 = it_list ajoute 0 1;; 
somme : int list -> int = <fun> 

# somme [1; 2; 3] ; ; 

- : int = 6 

Allons encore un peu plus loin: il est inutile de deflnir la fonction ajoute qui est 
equivalente a l'operateur infixe +. En effet, en Caml on fait reference a la forme prefixe 
d'un operateur infixe (comme +) en le faisant simplement preceder du mot-cle prefix : 

# (prefix +) ; ; 

- : int -> int -> int = <fun> 

# (prefix +) 12;; 

- : int = 3 

Cette facilite conduit a des definitions de somme et produit en une ligne (apres une 
etape de ?7-contraction) : 

# let somme = it_list (prefix +) 0 
and produit = it_list (prefix *) 1;; 

somme : int list -> int = <fun> 
produit : int list -> int = <fun> 

Graphiquement, cela s'exprime par les deux reecritures suivantes : 

, somme . , ^ . . n , 

I ^ it_list (prefix +) 0 I 

: : + 

/ \ / \ 

ei : : + e n 

/ \ / \ 

e 2 ■■■ ... e n _i 

\ / 
: : + 
/ \._ / \ 

e n [] 0 ei 

I produit ^ it_list (prefix *) 1 I 

: : * 

/ \ / \ 

ei : : * e n 

/ \ / \ 

e 2 ■■■ ... e n _i 

\ / 
: : * 
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Est-ce plus clair que notre premiere version de somme definie par filtrage sur les listes ? 
Pas pour les auteurs de ce livre en tout cas : nous pensons que cette ecriture semblera 
souvent obscure a d'autres programmeurs, y compris vous-meme trois mois apres avoir 
ecrit ce code ! Si vous voulez etre lisible, evitez ce style de « programmation sans vari- 
ables », particulierement si vous etes capable d'ecrire du code qui utilise encore plus 
de fonctionnelles que celui de somme : ce code peut devenir trop « elegant » pour etre 
maintenu . . . 



Accumuler encore 

Etant donnes trois arguments /, b et I, la fonctionnelle list_it effectue de multiples 
compositions de la fonction a deux arguments /, en utilisant les elements de la liste I 
comme premiers arguments de / ; l'element de base b est utilise pour le second argument 
du premier appel a /, puis le resultat de chaque appel a / est passe en second argument 
de l'appel suivant. list_it est caracterisee par: 

list.it / [ei; e 2 ; . . . ; e n ] b = f e x (/ e 2 ( . . . (/ e n b) ... )). 

En termes encore plus savants et en utilisant l'operateur mathematique de composition 
des fonctions o, on ecrirait : 

list.it / [ei; e 2 ; ... ; e n ]b = ((/ e x ) o (/ e 2 ) o ■ • • o (/ e n )) (b) 

# let rec list_it f 1 b = 

match 1 with 
I □ -> b 

I x : : reste -> f x (list_it f reste b) ; ; 
list.it : ('a -> 'b -> >b) -> 'a list -> 'b -> >b = <fun> 

Intuitivement, list.it fait aussi de la «reecriture de liste »: elle remplace toutes les 
occurrences de « : : » par / et le « [] » final par la valeur initiale b. 

, list.it n . . ... 
I ^ list it f I b 

ei : : e\ } 

e 2 e 2 

V 

e n U e n b 

Par exemple, la fonction qui copie une liste est facile a definir : elle doit remplacer tous 
les : : de la liste par d'autres : : et le [] final par [] . La fonction / qui fait ce travail de 
ne rien modifier et done de remplacer : : par : : , est simplement la fonction function 
x -> function 1 -> x : : 1. Nous Pappelons cons et la definissons ainsi : 

# let cons x 1 = x : : 1; ; 

cons : 'a -> 'a list -> 'a list = <fun> 

Avec list.it, nous ecrivons facilement la fonction de copie: 
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I 

/ \ 



list_it 



ei 



&2 



/ \ 



e n U 



list_it cons I [] 



cons 

/ \ 
ei cons 

e2 



cons 

e n [] 



# let copie_liste 1 = list_it cons 1 [] ; ; 
copie_liste : 'a list -> 'a list = <fun> 

# copie_liste [1;2;3];; 
- : int list = [1; 2; 3] 

Cette fonction n'est pas vraiment utile, sauf pour copier une liste devant une autre. En 
effet, si nous voulons maintenant concatener deux listes fa et fa (mettre les deux listes 
bout a bout), il suffit de mettre fa a la fin de fa, done de remplacer le [] final de fa par 
toute la liste fa- 
ll concatene l\ fa 



ei 



&2 



/ \ 



ei 



e2 



/ \ 



e n fa 



II suffit done d'appeler list_it sur fa avec la fonction cons et Pelement final fa- 

# let concatene 11 12 = list_it cons 11 12;; 
concatene : 'a list -> 'a list -> 'a list = <fun> 

# concatene [1; 2; 3] [4; 5; 6];; 
- : int list = [1; 2; 3; 4; 5; 6] 

concatene 



fa 
/ \ 



ei 



e2 



list_it cons fa fa 

/ \ 
/ \ 

e 2 



ei 



/ \ 



Definitions recursives locales 

Nous revenons sur le code de la fonction map pour faire la remarque suivante : etant 
donnee une fonction /, map se contente de boucler sur une liste, en appliquant /. C'est 
pourquoi il nous suffit de defmir une fonction recursive d Vinterieur de map, qui saura 
appliquer / sur les elements d'une liste quelconque : 

# let map f = 

let rec map_f onction_f = function 
I [] -> □ 

I x : : 1 -> f x : : map_f onction_f 1 in 
(function liste -> map_f onction_f liste) ; ; 
map : ('a -> >b) -> 'a list -> 'b list = <fun> 
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Ainsi, map n'est plus recursive, mais comporte une definition locale de fonction recursive. 
On simplifie encore ce code en utilisant la regie 77, qui stipule que 

(function liste -> map_f onction_f liste) 
est equivalent a la forme plus simple map_f onction_f . On obtient alors le code suivant : 

# let map f = 

let rec map_f onction_f = function 
I [] -> □ 

I x : : 1 -> f x : : map_f onction_f 1 in 
map_f onction_f ; ; 
map : ('a -> >b) -> 'a list -> 'b list = <fun> 

Cette vision de map correspond a celle d'une fonctionnelle qui, appliquee a une fonction 
/, retourne la fonction qui itere / sur une liste. Avec cette vision nous pourrions ecrire : 

# let successeur x = x + 1;; 
successeur : int -> int = <fun> 

# let liste_des_successeurs = map successeur; ; 
liste_des_successeurs : int list -> int list = <fun> 

# liste_des_successeurs [0; 1; 2];; 
- : int list = [1; 2; 3] 

Ce style de programmation n'est pas a encourager : la definition naive de map nous 
parait plus claire. D 'autre part, la definition de map avec une fonction locale ne se 
justifie pas non plus par un gain majeur en efficacite : suivant les compilateurs, elle sera 
un peu plus ou un peu moins efficace que la definition naive. 

En revanche, dans le cas ou une fonction recursive prend beaucoup de parametres en 
argument et ou ces parametres sont inchanges dans les appels recursifs, on peut admet- 
tre de definir localement une fonction recursive qui s'appelle avec les seuls parametres 
modifies. En ce cas, on rcmplaccrait la definition d'une fonction f a plusieurs parametres 
xl, x2, . . . , xn, dont les appels recursifs ne font varier que xn, par une definition com- 
portant une fonction locale ayant xn pour seul parametre. Ainsi 

let rec f xl x2 x3 ... xn = 

. . . f xl x2 x3. . . (xn + 1) . . . f xl x2 x3...(xn - 1) 

deviendrait 

let f xl x2 x3 ... = 

let rec f_locale xn = 

. . . f _locale (xn +1) ... f _locale (xn - 1) ... in 
f _locale ; ; 

Ce style ne se justifie que pour des raisons de concision ; il ne doit pas etre erige en 
systeme. 

5.10 Efficacite des fonctions sur les listes: etude de cas 

Dans cette section, nous analysons la complexite de deux fonctions, implose et rev. 
L 'etude de complexite nous amene a ecrire des versions plus efficaces, en style imperatif 
pour implose et en style purement fonctionnel pour rev. L'amelioration obtenue est 
basee dans les deux cas sur Pemploi d'un accumulateur qui maintient les resultats 
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intermediaries de la fonction. L'optimisation ne depend done pas obligatoirement du 
style de programmation utilise, puisqu'une meme idee sert dans les deux styles et pour 
des programmes differents. 



La fonction implose, version fonctionnelle 

La fonction implose concatene toutes les chaines d'une liste de chaines. Nous en 
avons deja ecrit la version la plus naive dans la section 5.9. Raisonnons graphiquement : 
pour obtenir la concatenation de toutes les chaines d'une liste il faut «reecrire» la 
liste en remplagant les « : : » par des « " » et le symbole [] final par la chaine vide. 
Algebriquement, si Ton note le la liste argument, [c\\ c 2 ; . . . ; c n ], on a 

implose [a; c 2 ; . . . ; c„] = c\ " c 2 ~ ■ . . " c n " "" 

= list_it (prefix ") lc "" 



, implose n . . . ^ . . , „„ 

lc ^ list_it (prefix ) lc "" 

/ \ / \ 

ci : : ci 

/ \ / \ 

c 2 ... c 2 ... 

c n [ ] c n 

De la meme facon, mais en utilisant it_list au lieu de list_it : 

implose [a; c 2 ; . . . ; c n ] = "" " ci~ . . . " c n 

= it_list (prefix ~) "" le 

On obtient done : 

# let implose lc = list_it (prefix ") lc 
implose : string list -> string = <fun> 

# let implose2 lc = it_list (prefix ~) "" lc;; 
implose2 : string list -> string = <fun> 

implose2 se simplifie par la regie 77, pour donner un code extremement similaire a celui 
de somme (operation binaire prefix " au lieu de prefix + et element neutre " " au lieu 
de 0) : 

# let implose2 = it_list (prefix ") "";; 
implose2 : string list -> string = <fun> 

Cette ecriture est extremement compacte ; on peut meme la considerer comme elegante. 
Cependant l'emploi des iterateurs, en produisant un code compact, a tendance a cacher 
la complexite des algorithmes. Nous allons voir que notre fonction implose a une com- 
plexite elevee (quadratique en le nombre de chaines concatenees) , a cause de la creation 
de nombreuses chaines intermediaires. 
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L'operateur de concatenation de chaines 

Pour calculer la complexite de la fonction implose, il nous faut reflechir sur le fonc- 
tionnement de l'operateur " de concatenation de chaines. Etant donnees deux chaines 
de caracteres c\ et c 2 en arguments, ~ alloue une nouvelle chaine de caracteres pour y 
loger la concatenation des deux chaines, puis y recopie c\ et c 2 correctement decalees. 

gi c 2 

|.|.|.|.|.....|.|.|.|.|.|.| |o|o|o|o|o|o|o|o|o[o1 

\ / 

|.|.|.|.|.|.|.|.|.|.|.|.|.|.|.|o|o|o|o|o|o|o|o|o1o1 

Cl " c 2 

Nous ecrivons l'operateur " sous la forme d'une fonction prefixe concat : 

# let concat cl c2 = 
let resultat = 

create_string (string_length cl + string_length c2) in 
blit_string cl 0 resultat 0 (string_length cl) ; 

blit_string c2 0 resultat (string_length cl) (string_length c2) ; 
resultat ; ; 

concat : string -> string -> string = <fun> 
On rappelle que l'appel de la procedure 

blit_string source indice_source destination indice_destination 
nombre_de_caracteres_a_transf erer 

transfere nombre_de_caracteres_a_transf erer dans la chaine destination a partir 
de l'indice indice_destination. Ces caracteres sont ceux de la chaine source a partir 
de l'indice indice_source. 

nombre_de_car act eres_a_transf erer 

source 



destination [ 

indice_destination 

Pour calculer la complexite de la fonction implose, nous considererons que le cout d'une 
concatenation est independant de la longueur des deux chaines concatenees, ou encore 
que toutes les chaines sont d'egale longueur et meme de longueur 1 pour simplifier 
encore. Nous supposons que la liste argument le comprend n chaines ci, C2, ■ ■ .c n . A 
chaque chaine Cj de la liste de chaines argument, on recopie le precedent resultat dans 
une nouvelle chaine /, puis on recopie la chaine Cj dans /. On alloue done autant de 
chaines que de resultats intermediaires, soit n. De plus, c\ est recopiee une fois, c 2 
deux fois, et c n est recopiee n fois. Ce qui donne done l + 2 + 3 + -- - + n caracteres 
copies. Or, un calcul facile (il suffit d'ajouter les termes de la somme en les groupant 
astucieusement, premier avec dernier, deuxieme avec avant-dernier, etc.) montre que 

n x (n + 1) 

l + 2 + 3 + --- + n = K - '- 



»l»l»l« 



'l«l l l l 



indice_source 

v i i 1 i i 
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Quand n est grand, (n x (n + l))/2 est proche de n 2 /2. Notre fonction a done une 
complexite de l'ordre de n 2 : elle est quadratique. Nous avons deja vu que e'est une 
complexite importante. Nous allons tenter de l'ameliorer. 



La fonction implose, version imperative 

L'idee, tres simple, est de calculer d'abord la longueur de la chaine necessaire au 
resultat final, de l'allouer, puis d'y copier toutes les chaines de la liste. 

# let implose chaines = 

let longueur = ref 0 in 
do_list 

(function ch -> 

longueur := string_length ch + ! longueur) 
chaines; 

let resultat = create_string ! longueur 

and position = ref 0 in 

do_list 

(function ch -> 

blit_string ch 0 resultat Iposition (string_length ch) ; 
position := Iposition + string_length ch) 
chaines ; 
resultat ; ; 

implose : string list -> string = <fun> 

La complexite de cette version est alors d'une seule allocation de chaine et de n copies 
de caracteres : cette version est done lineaire. La difference d'efficacite est enorme : pour 
10 4 chaines de caracteres, la premiere version necessite 10 8 /2 copies, soit 5000 fois plus 
que Palgorithme lineaire. En d'autres termes, si la version lineaire demande 1 seconde 
pour realiser la concatenation des 10 4 chaines, alors la version quadratique necessite 
plus de 1 heure de calcul ! 

Nous avons ainsi optimise la fonction implose en passant dans le monde imperatif. 
Cette demarche n'est pas obligatoire ; l'optimisation consiste aussi a remplacer un al- 
gorithme du monde fonctionnel par un autre plus efheace mais sans quitter le monde 
fonctionnel. C'est ce que nous allons voir maintenant. 



Retournement d'une liste 

La fonction rev est un exemple emblematique de fonction simple qui a pourtant 
un comportement catastrophique si Ton n'a pas le souci de reflechir a la complexite de 
ses programmes. La fonction rev renvoie sa liste argument a l'envers. Ici, Panalyse de 
complexite nous suggere un programme fonctionnel bien meilleur. 

On ecrit une version tres naive de rev en se basant sur le raisonnement suivant : 

• Si la liste est vide, son « envers » est aussi vide. 

• Si la liste n'est pas vide, il suffit d'ajouter son premier element a la fin du reste 
de la liste a l'envers. 

Cela se traduit immediatement par la definition : 
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# let rec rev = function 

I □ -> [] 

I x : : 1 -> concatene (rev 1) [x] ; ; 
rev : 'a list -> 'a list = <fun> 

# rev [1; 2; 3] ; ; 

- : int list = [3; 2; 1] 

Cette version est encore plus jolie avec la version infixe predefinie de concatene, 
l'operateur @. 

# let rec rev = function 

I □ -> [] 

I x : : 1 -> rev 10 [x] ; ; 
rev : 'a list -> 'a list = <fun> 

Cet algorithme est simple, le programme extremement concis, mais malheureusement 
inefficace, car on ne cesse de recopier des listes en utilisant la fonction concatene. 
Suivons le deroulement de revaluation du renversement de la liste [1; 2; 3] : 

rev [1 ; 2 ; 3] 

— > concatene (rev [2 ; 3] ) [1] 

— » concatene (concatene (rev [3]) [2]) [1] 

— > concatene (concatene (concatene (rev [] ) [3]) [2]) [1] 

— > concatene (concatene (concatene [] [3]) [2]) [1] 

— > concatene (concatene [3] [2]) [1] 

-> concatene (3 : : [2]) [1] 

— > concatene [3 ; 2] [1] 

-> 3 : : 2 : : [1] 

-> [3; 2; 1] 

II apparait que le premier element de la liste argument, 1, a ete « conse » une fois (pour 
fabriquer la liste [1]). Le second, 2, a ete « conse » deux fois (une fois pour fabriquer la 
liste [2] et une fois pour obtenir la liste intermediaire [2; 1]). Le troisieme, 3, a ete 
« conse » trois fois. On montre facilement que si la liste I a n elements, cet algorithme 
cree une cellule de liste pour le premier element, deux pour le second, . . . , et finalement 
n cellules pour le dernier element. Le nombre total de cellules crees est done encore la 
somme l + 2 + 3 + -- - + n, qui vaut n x (n + l)/2: l'algorithme est quadratique. Le 
phenomene de copie recursive des resultats partiels conduisant a un algorithme en n 2 
est le meme que pour la fonction implose. 

Pour ameliorer cet algorithme, il faut utiliser une methode tres generale : pour 
construire directement le resultat, on ajoute un argument supplementaire a la fonction. 
Cet argument joue le role d'un accumulateur, car on y memorise les resultats partiels 
de la fonction lors des appels recursifs. Cela conduit a ecrire une fonction elle aussi plus 
generale, dans la mesure ou il est possible maintenant de l'appeler avec un accumulateur 
non vide au depart. Prenant un peu de recul, on definit done une fonction auxiliairc 
concatene_a_l ' envers, qui etant donnes une liste et un accumulateur, recopie la liste 
en tete de Paccumulateur : 

# let rec concatene_a_l ' envers accu = function 

I [] -> accu 

I x :: 1 -> concatene_a_l' envers (x :: accu) 1;; 
concatene_a_l 'envers : 'a list -> 'a list -> 'a list = <fun> 
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# concatene_a_l ' envers [0] [1; 2; 3];; 
- : int list = [3; 2; 1; 0] 

Illustrons graphiquement le comportement de cette fonction. On part d'une liste 1 et 
d'un accumulateur accu qui contient eventuellement deja des elements : 

1 accu 



1' 



/ \ 



XI 



3 X \] 



Puis on recopie la tete de la liste 1 dans l'accumulateur, obtenant : 

accu 



reste 1 

2 / " X :: 

„ / 



/ \ 



Xl 



/ \ 



/ \ 



[] 



A l'etape suivante on aura : 

reste(reste 1) 



3' \l 



accu 



/ \ 



/ \ 



Xl 



[] 



II est clair maintenant que l'accumulateur engrange les elements de la liste 1 a l'envers. 
La fonction rev s'en deduit simplement, en appelant concatene_a_l ' envers avec un 
accumulateur vide : 

# let rev 1 = concatene_a_l ' envers [] 1;; 
rev : 'a list -> 'a list = <fun> 

# rev [1; 2; 3] ; ; 

- : int list = [3; 2; 1] 

Notre algorithme est maintenant lineaire. Cette methode d'accumulation des resultats 
intermediaires dans un argument supplement aire de la fonction est souvent une bonne 
piste a suivre pour optimiser une fonction, quand cette fonction pose des problemes 
d'efncacite. Encore faut-il prouver que la fonction sujette a optimisation est reellement 
le goulet d'etranglement du programme, puis demontrer par une etude de complexite 
que l'optimisation va vraiment ameliorer les performances. C'est evidemment tres dif- 
ficile. En regie generale, on se contentera d'ecrire des programmes corrects et lisibles. 



5.11 Listes et recurrence 

Nous montrons dans cette section comment prouver des proprietes sur les listes. 
Bien qu'un peu theorique, ce n'est pas tres complexe, puisqu'il s'agit d'une extension 
simple du principe de recurrence. 
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Lorsque nous avons ecrit des fonctions recursives sur les entiers, nous apportions 
la preuve de leurs proprietes en utilisant le principe de recurrence. Mais ce principe 
ne s'applique plus dans le cas des listes, puisqu'il concerne uniquement les proprietes 
definies sur les nombres entiers. Comment prouver des proprietes des listes ? II suffit de 
se ramener au cas des entiers en raisonnant sur le nombre entier qui mesure la longueur 
de la liste. Le principe de recurrence nous permet alors de demontrer qu'une propriete 
est vraie pour des listes de n'importe quelle longueur, done pour toutes les listes. Une 
application directe du principe de recurrence nous permet ainsi d'etablir que : 

Si une propriete P est vraie pour une liste de longueur 0, et si des qu'elle est 
vraie pour une liste de longueur n elle est vraie pour une liste de longueur 
n + 1, alors P est vraie pour des listes de n'importe quelle longueur. 

Si l'on remarque qu'il n'existe qu'une seule liste de longueur 0, la liste vide, et qu'une 
liste de longueur n + 1 s'obtient forcement en rajoutant un element a une liste de 
longueur n, on obtient maintenant l'enonce : 

Si une propriete P est vraie pour [] et si des que P est vraie pour I alors 
P est vraie pour x: : I, alors P est vraie pour toutes les listes. 

C'est ce qu'on appelle le principe de recurrence structurelle sur les listes. Rcmarquons 
que ces deux cas, [] et x: : I, sont justement les deux cas du filtrage d'une fonction 
recursive sur les listes. Cela justifie nos raisonnements informels precedents, quand 
nous disions «un petit appel recursif et le tour est joue», ou bien que nous appelions 
recursivement une fonction pas encore ecrite en pensant « qu'elle saurait bien faire toute 
seule ». Cela justifie aussi le qualificatif « structurelle » de ce principe de recurrence, 
puisqu'on raisonne en fait sur la structure des listes. 

Prouvons par exemple que la fonction insere, qui nous a servi de fonction auxiliaire 
pour le tri par insertion, insere correctement un element dans une liste. Nous considerons 
done la propriete P(l) suivante : sous l'hypothese que I est une liste bien triee, insere 
element I est une liste, elle aussi bien triee, qui comprend element et tous les elements 
de la liste I. 

1. P est vraie pour [] . En effet, insere element [] vaut [elements , qui est forcement 
bien triee, comprend element et tous les elements de la liste vide. 

2. Supposons P(l) vraie. Alors P(x: : I) est vraie aussi. En effet, d'apres la 
definition de la fonction insere, si element < x alors insere element (x: : I) vaut 
element: : x: : I, qui contient element et tous les elements de la liste argument 
x: : I, et ce resultat est bien trie puisque x: : I est bien triee par hypothese et 
que element < x. Dans le cas ou element > x, alors insere element (x : : I) 
vaut x: : (insere element I). Cette liste est bien triee car, d'apres l'hypothese 
de recurrence, P(l) est vraie, done (insere element I) est bien triee; mais x 
est le plus petit element de x: : (insere element I), puisque e'etait deja le plus 
petit element de (x::l) et qu'il est plus petit que element. De plus la liste 
x:: (insere element I) contient element et tous les elements de (x::l) car 
elle contient evidemment x et par hypothese de recurrence (insere element I) 
contient tous les elements de I et l'element a inserer element. 

En conclusion, notre fonction insere fonctionne : P est vraie pour toute liste. Done, si 
I est une liste bien triee, insere element I est bien triee et comprend element en plus 
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de tous les elements de la liste I. 

Les proprietes des fonctions defmies sur les listes se demontreront toujours de facon 
analogue, en suivant le filtrage utilise par la fonction pour diriger la preuve par induction 
structurelle (induction signifie demonstration par recurrence). 

5.12 A la recherche de l'iterateur unique 

Nous avons reussi a exprimer la fonction implose en fonction de it_list et de 
list_it. La question se pose done du choix de l'iterateur le plus efneace et de l'utilite 
d'en avoir deux. 

Recursivite terminale 

En ce qui concerne l'efficacite, it_list est legerement plus efneace que list_it, 
car il est recursif terminal, ce qui signifie qu'il peut s'implementer en machine par un 
simple saut : il ne laisse pas de calculs en suspens. Par exemple, la fonctionnelle do_list 
est recursive terminale : 

# let rec do_list f = function 

I □ -> 0 

I x :: 1 -> f x; do_list f 1;; 
do_list : ('a -> >b) -> 'a list -> unit = <fun> 

En effet, apres avoir execute f x on rappelle directement do_list en oubliant le calcul 
precedent. En revanche, map n'est pas recursive terminale: 

# let rec map f = function 

I □ -> [] 

I x : : 1 -> f x : : map f 1 ; ; 
map : ('a -> 'b) -> 'a list -> 'b list = <fun> 

Lors de l'appel recursif map f 1, il faut sauvegarder quelque part la valeur de f x 
pour l'ajouter en tete du resultat de map f 1. Generalement, ce resultat intermediaire 
est sauvegarde dans un tableau en attendant le retour de l'appel recursif. Ce tableau 
est appele pile d' execution du programme. Comme toutes les ressources memoire, la 
pile est de taille finie et une fonction qui travaille en espace de pile constant comme 
do_list est preferable a une fonction qui consomme de la pile comme map. Lorsqu'on a 
le choix entre une fonction recursive terminale et une autre qui ne l'est pas, on prefere 
generalement celle qui est recursive terminale, pourvu qu'elle reste simple : rendre une 
recursion terminale ne justifie generalement pas qu'on complique le programme. 

Iterateurs et effets 

L'iterateur list_it est tres puissant : en ce qui concerne les calculs proprement 
dits, il n'est pas necessaire d'en avoir d'autre. Par exemple, map s'ecrit tres facilement 
avec list_it. 

# let map f 1 = 

list_it (function x -> function res -> f x : : res) 1 [] ; ; 
map : ('a -> 'b) -> 'a list -> 'b list = <fun> 
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# map successeur [1; 2; 3];; 

- : int list = [2; 3; 4] 

Dans le meme esprit il serait tentant d'ecrire do_list en fonction de list_it. 

# let do_list f 1 = 

list_it (function x -> function y -> f x; y) 1 0 ; ; 
do_list : ('a -> 'b) -> 'a list -> unit = <fun> 

# do_list print_int [1; 2; 3];; 
321- : unit = () 

La fonction est bien appliquee sur tous les elements de la liste, mais a l'envers. Les 
effets se produisent done dans l'ordre inverse de la vraie fonction do_list. Cependant, 
il suffit d'exprimer do_list en fonction de it_list pour que tout rentre dans l'ordre. 

# let do_list f 1 = 

it_list (function y -> function x -> f x; y) () 1;; 
do_list : ('a -> 'b) -> 'a list -> unit = <fun> 

# do_list print_int [1; 2; 3];; 
123- : unit = () 

Tentons alors d'exprimer egalement map en fonction de it_list. 

# let map f 1 = 

it_list (function res -> function x -> f x :: res) [] 1;; 
map : ('a -> 'b) -> 'a list -> 'b list = <fun> 

Malheureusement, la liste resultat n'est pas dans le bon ordre. 

# map successeur [1; 2; 3];; 

- : int list = [4; 3; 2] 

# map (function x -> print_int x; successeur x) [1; 2; 3];; 
123- : int list = [4; 3; 2] 

En effet, it_list accumule les resultats dans la liste res en les ajoutant en tete de liste. 
Comme dans le cas de rev, on obtient ainsi la liste des resultats a l'envers. D'ailleurs, 
si l'on ne fait qu'accumuler les elements sur la liste des resultats precedents, on obtient 
effectivement une autre version de rev : 

# let rev 1 = it_list (function res -> function x -> x :: res) [] 1;; 
rev : 'a list -> 'a list = <fun> 

# rev [1; 2; 3] ; ; 

- : int list = [3; 2; 1] 

Cette version peu commune de rev est egalement lineaire et recursive terminale. 

En conclusion, on constate que map et do_list sont des versions specialisees 
d'iterateurs plus generaux. Ces fonctions gardent cependant leur interet, car elles 
sont simples a employer et a comprendre. Du point de vue purement calculatoire, 
it_list et list_it sont un tant soit peu redondants, mais ils se distinguent lorsque 
les fonctions qu'ont leur applique produisent des effets. On constate une fois de plus 
que les effets compliquent les choses, car ils permettent de distinguer plus finement le 
comportement d'algorithmes mathematiquement equivalents. On peut s'en rejouir ou 
en avoir peur . . . 
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6 

Les structures de donnees 



Ou Von apprend a melanger les torchons et les serviettes 
pour definir le linge de maison. 



N Caml, les types de donnees comprennent principalement les types somme et 
les types produit, c'est-a-dire les types «ou» et les types «et», encore appeles 
les enumerations generalisees et les enregistrements, ou plus techniquement 
encore l'union disjointe et les produits a champs nommes. Dans ce chapitre, nous in- 
troduisons ces differents types de donnees et les montrons a Pceuvre sur le probleme de 
la representation efficace des polynomes. 




6.1 Polynomes pleins et polynomes creux 

Nous avons vu par deux fois des calculs sur les polynomes, d'abord representes 
par des tableaux dans le chapitre 3 (section 3.3), puis comme des listes dans le 
chapitre 5 (section 5.5). Nous avons appele les seconds polynomes creux, les premiers 
polynomes pleins. Maintenant se pose evidemment le probleme de travailler avec ces 
deux representations en mime temps, pour beneficier des avantages de chacune d'elles : 
lorsqu'un polynome est plein, la representation a l'aide d'un tableau est economique, 
car les degres sont implicites ; en revanche, lorsqu'un polynome est creux (comporte 
beaucoup de coefficients nuls), la representation en liste est preferable — quand elle 
n'est pas tout simplement la seule envisageable, comme pour le polynome 1 + x 1000000 . 
Nous aimerions done representer les polynomes par un tableau ou une liste selon le 
cas, mais definir des operations qui travaillent indifferemment sur l'une ou l'autre des 
representations. Or, ces deux types de representations sont incompatibles au point de 
vue du typage. Considerons la procedure d'impression des polynomes : nous avons defini 
deux fonctions, specifiques a chacune des representations, imprime_polynome_plein 
: int vect -> unit, qui imprime les polynomes pleins, et imprime_polynome_creux 
: (int * int) list -> unit, qui imprime les polynomes creux. Pour avoir une 
primitive d'impression travaillant sur tous les polynomes, on aurait done envie d'ecrire : 

let imprime_polyn6me p = 

if p «est un polynome plein » 
then imprime_polynome_plein p 
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else imprime_polyn6me_creux p; ; 

C'est effectivement la bonne idee, mais il faut la raffiner un peu: outre qu'on ne voit 
pas comment implementer le predicat « est un polynome plein », il se pose egalement un 
probleme de typage pour l'argument p de imprime_polynome : est-ce une liste comme le 
suggere l'appel de fonction imprime_polynome_creux p, ou un tableau pour pouvoir 
etre passe en argument a imprime_polynome_plein ? On obtiendrait forcement une 
erreur de typage. Par exemple, en supposant que «est un polynome plein » renvoie 
toujours la valeur true : 

# let imprime_polynome p = 

if true then imprime_polynome_plein p 
else imprime_polyn6me_creux p; ; 
Entree interactive: 

> else imprime_polyndme_creux p;; 
> 

Cette expression est de type int vect, 

mais est utilisee avec le type (int * int) list. 

II faut done melanger les polynomes creux et pleins au sein d'wn meme type qui les 
comprenne tous les deux. 

Le type polynome 

On definit done un nouveau type, polynome, qui etablit explicitement le melange: 
il indique qu'il comprend deux cas possibles, le cas des polynomes pleins qui seront des 
tableaux d'entiers et le cas des polynomes creux qui seront des listes de paires d'entiers. 

# type polynome = 

I Plein of int vect 
I Creux of (int * int) list;; 
Le type polynome est defini . 

Le mot-cle type introduit la definition du nouveau type polynome. Apres le signe =, 
on ecrit la liste des possibilites du type en cours de definition. Les noms Plein et 
Creux sont appeles les constructeurs de valeurs du type (s'il n'y a pas d'ambigu'ite 
on dit simplement « constructeurs »). Comme d'habitude, la barre verticale I indique 
l'alternative et se lit «ou». Le mot-cle of indique le type de l'argument du constructeur. 
Le type polynome comprenant les valeurs d'un type plus les valeurs d'un autre type, on 
dit que c'est un type somme. On peut maintenant creer des valeurs de type polynome 
en appliquant l'un des deux constructeurs du type polynome a une valeur du type 
correspondant. Par exemple: 

# let pi = Plein [|1; 2; 3|] ; ; 

pi : polynome = Plein [11; 2; 31] 

# let p2 = Creux [(1, 0); (1, 100)];; 
p2 : polynome = Creux [1 , 0; 1, 100] 

Maintenant pi et p2 sont du meme type et pourront etre arguments d'une meme 
fonction. 
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Le filtrage est etendu a tous les types somme et permet, etant donnee une valeur du 
type somme, de determiner dans quel cas se trouve cette valeur. Pour le type polynome, 
le filtrage va done nous permettre d'implementer la fonction «est un polynome plein» : 

# let est_un_polyn6me_plein = function 

I Plein _ -> true 
I Creux _ -> false;; 
est_un_polynome_plein : polynome -> bool = <fun> 

Une fonction travaillant sur des valeurs de type polynome fera typiquement une dis- 
crimination sur les valeurs du type par un filtrage du genre : 

let f = function 
I Plein v -> ... 
I Creux 1 -> . . . ; ; 

Remarquez que le filtrage permet a la fois de determiner le type du polynome et de 
recuperer son tableau ou sa liste de monomes. C'est strictement analogue au cas des 
listes oil nous ecrivions : 

let f = function 
I []->... 
I x : : reste -> . . . ; ; 

C'est maintenant un jeu d'enfant que d'ecrire la fonction d'impression des valeurs de 
type polynome : 

# let imprime_polynome = function 

I Plein v -> imprime_polyn6me_plein v 
I Creux 1 -> imprime_polyn6me_creux 1;; 
imprime_polyndme : polynome -> unit = <fun> 

# imprime_polyn6me pi;; 

1 + 2x + 3x~2- : unit = () 

# imprime_polyn6me p2; ; 
1 + x~100- : unit = () 

Operations sur les valeurs de type polynome 

Nous definissons l'addition et la multiplication des polynomes creux ou pleins. 
Puisque les polynomes se presentent sous deux formes, nous avons quatre cas a en- 
visager. L'idee est simple : 

• la somme de deux polynomes creux est un polynome creux : on appelle l'addition 
des polynomes creux ; 

• la somme de deux polynomes pleins est un polynome plein : on appelle l'addition 
des polynomes pleins ; 

• la somme de deux polynomes d'especes differentes est un polynome creux. 

En effet, si l'un des polynomes est creux il comprend beaucoup de zeros et sa somme 
avec un autre polynome comprendra aussi beaucoup de zeros en general (considerez 
par exemple (1 + x + 3x 2 ) + (1 + x 100 )). Done, dans le cas mixte, nous appelons encore 
l'addition des polynomes creux. Puisque l'un des polynomes est plein, nous avons be- 
som d'une fonction qui transforme un polynome plein en polynome creux. C'est sans 
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difficulte : nous parcourons le tableau des coefficients en accumulant dans une liste les 
monomes rencontres. La seule subtilite est de parcourir le tableau a l'envers pour que 
le dernier monome ajoute a la liste soit bien celui de degre 0. 

# let plein_vers_creux v = 

let 1 = ref [] in 

for i = vect_length v - 1 downto 0 do 

if v.(i) <> 0 then 1 := (v.(i), i) :: !1 
done; 

!i;; 

plein_vers_creux : int vect -> (int * int) list = <fun> 
L'addition des polynomes se definit alors tres simplement : 

# let ajoute_polynomes pi p2 = 

match pi, p2 with 

I Plein v, Plein v' -> Plein (ajoute_polynomes_pleins v v') 
I Creux 1, Creux 1' -> Creux (ajoute_polynomes_creux 1 1') 
I Plein v, Creux 1 -> 

Creux (ajoute_polynomes_creux (plein_vers_creux v) 1) 
I Creux 1, Plein v -> 

Creux (ajoute_polynomes_creux (plein_vers_creux v) 1);; 
ajoute_polynomes : polyndme -> polyndme -> polyndme = <fun> 

Ce code peut etre legerement simplifie en remarquant que les deux derniers cas du 
filtrage sont presque identiques (ces deux cas se traduisent par deux clauses du filtrage 
dont la partie expression est la meme). Pour eviter cette redite, on joue sur le fait 
que l'addition des polynomes est commutative pour traiter le dernier cas par un appel 
recursif a la fonction ajoute_polynome qui inverse les arguments pi et p2. 

# let rec ajoute_polynomes pi p2 = 

match pi, p2 with 

I Plein v, Plein v' -> Plein (ajoute_polynomes_pleins v v') 
I Creux 1, Creux 1' -> Creux (ajoute_polynomes_creux 1 1') 
I Plein v, Creux 1 -> 

Creux (ajoute_polynomes_creux (plein_vers_creux v) 1) 
I Creux 1, Plein v -> 

ajoute_polynomes p2 pi;; 
ajoute_polynomes : polyndme -> polynome -> polyndme = <fun> 

Cette derniere solution permet de ne pas dupliquer de code, ce qui raccourcit legerement 
le texte de la fonction et diminue la probabilite d'introduire une erreur en ne modifi- 
ant qu'une des clauses lors de corrections ulterieures du programme. En fait, lorsque 
l'expression a renvoyer est compliquee, l'appel recursif s'impose sans contestation pos- 
sible. Cependant, cette solution presente 1' inconvenient de suggerer que la fonction 
ajoute_polynome est vraiment recursive, alors qu'elle ne Test que pour des raisons 
« administratives ». 

La multiplication n'est pas plus compliquee : 

# let rec multiplie_polynomes pi p2 = 

match pi, p2 with 

I Plein v, Plein v' -> Plein (multiplie_polynomes_pleins v v') 

I Creux 1, Creux 1' -> Creux (multiplie_polynomes_creux 1 1') 
I Plein v, Creux 1 -> 
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Creux (multiplie_polyn6mes_creux (plein_vers_creux v) 1) 
I Creux 1, Plein v -> 

multiplie_polyn6mes p2 pi;; 
multiplie_polyndmes : polyndme -> polyndme -> polyndme = <fun> 

# imprime_polyn6me (multiplie_polyn6mes pi p2) ; ; 

1 + 2x + 3x~2 + x'100 + 2x~101 + 3x~102- : unit = () 

# let plOOOO = Creux [(1, 0); (1, 10000)];; 
plOOOO : polyndme = Creux [1, 0; 1, 10000] 

# imprime_polyn6me (multiplie_polynomes plOOOO plOOOO) ; ; 
1 + 2x~ 10000 + x~20000- : unit = () 

6.2 Types sommes elabores 

Un autre exemple classique de type somme est la modelisation des peintures. On 
suppose que les peintures sont decrites soit par un nom explicite, soit par un simple 
numero de reference, soit par un melange d'autres peintures. Nous envisagerons succes- 
sivement ces trois cas et construirons done le type peinture par rafnnements successifs, 
en trois etapes. 

Enumerations 

On considere d'abord les peintures explicitement nominees, en supposant qu'il en 
existe trois : le Bleu, le Blanc et le Rouge. Le type peinture comporte done trois cas : 
e'est un type somme. Ces cas ne sont plus des valeurs de types differents comme pour les 
polynomes, mais simplement trois constantes. On les modelise par trois constructeurs 
sans arguments, done sans partie of dans la definition : 

# type peinture = 

I Bleu 
I Blanc 
I Rouge ; ; 
Le type peinture est def ini . 

Les trois constructeurs sont maintenant trois nouvelles constantes du langage Caml, de 
type peinture. 

# let p = Bleu; ; 

p : peinture = Bleu 

Tout naturellement, le filtrage s'applique aussi a ce nouveau type: 

# let est_blanche = function 

I Blanc -> true 
I _ -> false; ; 
est_ blanche : peinture -> bool = <fun> 

# est_blanche p;; 
- : bool = false 

Ces types somme ne comportant que des constantes sont appeles types enumeres. Vous 
en connaissez deja: par exemple, le type bool est un type somme enumere a deux 
constantes, true et false. 
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Types a constructeurs non constants 

Nous supposons maintenant qu'il existe dans Pensemble de toutes les peintures des 
teintes qui n'ont pas de nom, mais seulement un numero de reference. Nous etendons 
done le type peinture avec un nouveau constructeur qui prenne en compte ce cas. 
II s'agit maintenant d'un constructeur ayant un argument : le numero de reference. 
Appelons ce constructeur Numero. Par exemple, Numero 14 modelisera la peinture de 
reference numero 14. Nous defmissons done le nouveau type des peintures comme : 

# type peinture = 

I Bleu 
I Blanc 
I Rouge 

I Numero of int ; ; 
Le type peinture est defini. 

Types recursifs 

La prochaine etape est la description des melanges de peintures. II existe maintenant 
des peintures qui sont simplement des melanges de deux autres peintures (en propor- 
tions egales) et qu'on identifie par les peintures qui les composent. Nous introduisons 
done un nouveau constructeur Melange avec pour argument un couple de peintures. 
Notre type devient : 

# type peinture = 

I Bleu 
I Blanc 
I Rouge 

I Numero of int 

I Melange of peinture * peinture;; 
Le type peinture est defini. 

# let mell = Melange (Bleu, Blanc) ; ; 
mell : peinture = Melange (Bleu, Blanc) 

# let mel2 = Melange (Numero 0, Rouge);; 
mel2 : peinture = Melange (Numero 0, Rouge) 

Remarquez que le type peinture est devenu recursif, puisqu'il intervient dans sa propre 
definition. Ainsi, on peut melanger n'importe quelles peintures et en particulier faire 
des melanges de plus de deux peintures. 

# let mel3 = Melange (mell ,mel2) ; ; 
mel3 : peinture = 

Melange (Melange (Bleu, Blanc), Melange (Numero 0, Rouge)) 

Le filtrage sur le type peinture ne pose pas de problemes: 

# let rec contient_du_bleu = function 

I Bleu -> true 

I Melange (pl,p2) -> contient_du_bleu pi I I contient_du_bleu p2 
I _ -> false; ; 
contient_du_bleu : peinture -> bool = <fun> 

# contient_du_bleu mel3;; 
- : bool = true 
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La definition du type peinture, quoique recursive, conserve tout de meme un sens, 
parce qu'il existe des cas de base pour arreter la recursion. C'est tout a fait analogue 
aux definitions de fonctions recursives qui presentent des cas d'arret simples. Les cas 
de base du type, comme par exemple les constructeurs sans arguments, correspondent 
souvent a des cas de base des fonctions recursives sur ce type. 

Les cartes 

On modelise tres aisement un jeu de cartes en utilisant les types somme. Les couleurs 
forment un type enumere : 

# type couleur = I Trefle I Carreau I Coeur | Pique;; 
Le type couleur est def ini . 

et les cartes un type somme a plusieurs possibilites, selon les valeurs faciales des cartes : 

# type carte = 

I As of couleur 
I Roi of couleur 
I Dame of couleur 
I Valet of couleur 
I Petite_carte of int * couleur; ; 
Le type carte est def ini . 

Dans cette definition, nous avons choisi de regrouper toutes les cartes qui ne sont pas 
des figures sous la meme denomination: Petite_carte. On aurait pu aussi continuer 
remuneration avec des constructeurs Dix, Neuf , Huit, etc. 

Pour illustrer le filtrage sur les types somme, nous defmissons la valeur d'une carte 
a la «belote». Cette valeur depend d'une couleur particuliere, l'atout, choisie par les 
joueurs a chaque tour. Les cartes dont la valeur change sont le valet et le neuf : le neuf 
compte d'ordinaire pour 0, mais vaut 14 quand il est de la couleur de l'atout, et le valet 
d'atout vaut 20 au lieu de 2 d'ordinaire. D'autre part, les dix valent 10 points et les 
autres petites cartes 0. 

# let valeur_d'une_carte couleur_d'atout = function 

I As _ -> 11 
I Roi -> 4 
I Dame -> 3 

I Valet c -> if c = couleur_d'atout then 20 else 2 
I Petite_carte (10, _) -> 10 

I Petite_carte (9, c) -> if c = couleur_d' atout then 14 else 0 
I _ -> 0;; 

valeur_d ■'une_carte : couleur -> carte -> int = <fun> 

Remarquez que la structure du filtrage de la fonction valeur_d , une_carte est tres 
similaire a la definition du type carte. C'est un mecanisme frequent en Caml : pour 
definir une fonction sur un type somme, on se guide souvent sur la definition du type 
qui donne le squelette du filtrage a utiliser. On le complete alors pour envisager les cas 
particuliers, comme ici les cas du 10 et du 9. 

Cela termine les exemples de types somme. Nous donnons maintenant une 
presentation plus generale du concept. 
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6.3 Les types somme 

Les types somme servent done a modeliser des donnees comprenant des alternatives. 
On les appelle aussi types « ou », car une donnee modelisee par un type somme est d'une 
espece ou d'une autre ou . . . Par exemple, une peinture est soit nominee, soit un simple 
numero, soit un melange de deux peintures ; de meme, les polynomes sont soit pleins, 
soit creux. 

Les fonctions definies sur un type somme operent generalement par filtrage sur les 
elements du type ; elles ont une structure tres voisine de la definition du type. On peut 
considerer qu'on emploie alors une programmation « dirigee par le filtrage » (ou dirigee 
par les definitions de type). 

Remarquons qu'il est d'usage de toujours mettre une majuscule aux noms des con- 
structeurs de type somme, pour ne pas les confondre avec les noms de variables dans 
le filtrage. Correlativement, il est recommande de toujours ecrire les noms de variables 
en minuscules. Cette regie n'est pas absolue : par exemple les booleens true et false 
derogent a cette regie. II est vrai que leur statut est tres particulier puisque ce sont des 
constructeurs primitifs et des mots-cles du langage. 

Formellement, les types somme sont l'analogue Caml de la notion mathematique de 
somme disjointe d 'ensemble. Nous n'etudierons pas cette notion, nous contentant de 
l'idee intuitive ci-dessus. 

6.4 Les types produit 

Caml offre une deuxieme classe de structures de donnees, complementaires des types 
somme: les types produit, encore appeles enregistrements ou records en anglais. 

Definition des types enregistrement 

Les enregistrements constituent une generalisation des n-uplets. lis servent a 
modeliser les donnees qui ont simultanement plusieurs proprietes. On les appelle 
done aussi types «et», car ils s'utilisent pour representer une donnee ayant telle 
caracteristique et telle autre caracteristique et . . . On dresse alors la liste des car- 
acteristiques lors de la definition du type. Chacune des caracteristiques est accompagnee 
de son type respectif et la liste de toutes les caracteristiques est entouree d'accolades 
{ }. Par exemple, un monome possede un coefficient et un degre ; pour modeliser 
les monomes, nous definirons done un type produit avec deux caracteristiques, 
coefficient et degre, toutes deux de type entier. 

# type monome = { coefficient : int; degre : int };; 
Le type monome est defini . 

Pour construire une valeur de ce type, on se contente d'enumerer ses caracteristiques 
particulieres : 

# let ml = {coefficient = 1; degre = 0};; 
ml : monome = {coefficient = 1; degre = 0} 
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Acces aux composantes des enregistrements 

Pour acceder a l'une des caracteristiques d'un objet de type produit, il suffit de faire 
suivre l'objet d'un point « . » et du nom de la caracteristique. C'est analogue au « . » 
de Faeces dans les tableaux et les chaines de caracteres. 

# ml . coefficient ; ; 

- : int = 1 

# ml .degre; ; 

- : int = 0 

Ce que nous avons appele «nom de caracteristique » porte le nom technique 
d' etiquette. Une caracteristique s'appelle aussi une rubrique, ou encore un champ de 
l'enregistrement. Les etiquettes permettent de se liberer de l'ordre dans lequel on 
nomme les caracteristiques : le compilateur se charge de les mettre dans le bon ordre. 
Ainsi, si Ton intervertit l'ordre des etiquettes, la valeur produite est la meme : 

# let m2 = { degre = 0; coefficient = 1 };; 
m2 : mondme = {coefficient = 1; degre = 0} 

# ml = m2; ; 

- : bool = true 

Filtrage des types enregistrement 

Le filtrage s'etend naturellement aux enregistrements : 

# let de_degre_zero = function 

I {degre = 0; coefficient = _} -> true 
I _ -> false ; ; 
de_degre_zero : mondme -> bool = <fun> 

# de_degre_zero ml;; 

- : bool = true 

II existe en plus une ellipse speciale pour indiquer qu'on ne s'interesse pas au reste des 
champs d'un enregistrement : on ecrit « ; _ » pour dire « quels que soient les autres 
champs et leurs contenus». On ecrirait done la fonction de_degre_zero plus naturelle- 
ment ainsi : 

# let de_degre_zero = function 

I {degre =0; _} -> true 
I _ -> false; ; 
de_degre_zero : mondme -> bool = <fun> 

On peut aussi nommer le contenu des champs et faire des synonymes. Par exemple, la 
fonction qui renvoie la valeur absolue d'un monome s'ecrit : 

# let abs_monome = function 

{coefficient = a; degre = d} as m -> 

if a < 0 then {coefficient = -a; degre = d} else m; ; 
abs_mondme : mondme -> mondme = <fun> 

Les types enregistrement portent le nom technique de produits nommes a champs 
nommes, et les types produit en general correspondent a la notion mathematique de 
produit cartesien d 'ensembles. Encore une fois, nous nous contenterons de la vision 
intuitive. 
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6.5 Melange de types somme et types produit 

Types somme et types produit peuvent etre arbitrairement melanges. Ainsi, une 
definition plus elaboree des polynomes serait : 

# type poly = 

I Plein of int vect 
I Creux of monome list;; 
Le type poly est defini. 

L'avantage de cette definition est d'avoir explicitement nomme les caracteristiques d'un 
monome. Par exemple, la fonction plein_vers_creux deviendrait : 

# let plein_vers_creux v = 

let 1 = ref [] in 

for i = vect_length v - 1 downto 0 do 

1 := {degre = i; coefficient = v. (i)} :: !1 
done ; 

ii;; 

plein_vers_creux : int vect -> monome list = <fun> 

On a done remplace la paire (v.(i), i) par l'enregistrement {degre = i; 
coefficient = v. (i)} dans le code de l'ancienne fonction. La difference est faible 
mais elle suffit a rendre le code plus facile a lire et a ecrire. D'ailleurs la premiere version 
de plein_vers_creux ecrite au cours de la redaction de ce livre etait fausse : au lieu 
de (v. (i) , i) nous avions ecrit (i, v. (i)) parce que nous avions oublie dans quel 
ordre nous avions decide de mettre le degre et le coefficient dans les couples d'entiers 
modelisant les monomes ! Cela ne se voyait pas sur le type des polynomes creux, la 
convention etant simplement repartie dans le code des fonctions de manipulation des 
polynomes creux. Cette erreur, undetectable par typage, est facilement evitee quand 
on ecrit explicitement les noms degre et coefficient et que e'est le compilateur qui 
retablit 1' ordre des rubriques. 

6.6 Structures de donnees mutables 

Nous connaissons deja certaines structures de donnees dont le contenu est modifiable 
dynamiquement : ce sont les references et les tableaux. Les enregistrements possedent 
aussi cette qualite : lors de la definition d'un type enregistrement, certains champs 
peuvent etre qualifies de « mutables », e'est-a-dire modifiables. Le verificateur de type 
autorise alors la modification physique du contenu du champ des objets de ce type. 

Enregistrements a champs mutables 

Voici un exemple tres simple oil il est necessaire de modifier des champs 
d'enregistrement : supposez qu'on veuille modeliser des comptes bancaires. En premiere 
approximation, un compte se caracterise par son numero et par le montant actuel des 
depots sur le compte (le solde du compte). Si le numero du compte a peu de chance 
de changer, en revanche le solde varie a chaque retrait ou depot. II faut done que 
Petiquette solde du type compte soit declaree mutable a la definition du type. 
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# type compte = { numero : int; mutable solde : float };; 
Le type compte est defini . 

La definition d'une valeur d'un type enregistrement a champs mutables et Pacces a ses 
champs ne different en rien du cas d'un type enregistrement normal. 

# let compte_de_durand = {numero = 0; solde = 1000.0};; 
compte_de_durand : compte = {numero = 0; solde = 1000.0} 

# compte_de_durand. solde ; ; 

- : float = 1000.0 

Pour definir la fonction depot qui met a jour le solde d'un compte lors d'un depot, 
on utilise Poperation de modification physique d'un champ d'enregistrement, notee 
e±. etiquette <- e2, oil e\ et e<i sont deux expressions et etiquette le nom d'une etiquette 
d'enregistrement. L'execution de cette expression remplace le contenu du champ 
etiquette de Penregistrement e\ par la valeur de l'expression e-z- Comme toute modifi- 
cation physique, cette expression renvoie la valeur «rien» (). La fonction depot s'ecrit 
done simplement : 

# let depot compte montant = 

compte. solde <- montant +. compte . solde ; ; 
depot : compte -> float -> unit = <fun> 

# depot compte_de_durand 30.0;; 

- : unit = () 

# compte_de_durand. solde; ; 

- : float = 1030.0 

Variables remanentes 

Cet exemple nous permet aussi d'aborder les references locales aux fonctions qui 
conservent leur valeur entre les differents appel a la fonction. Nous definissons la fonc- 
tion de creation des comptes : elle doit necessairement allouer un nouveau numero a 
chaque nouveau compte cree. Pour cela, il lui suffit de tenir a jour une reference entiere 
contenant le dernier numero de compte attribue et de Pincrementer a chaque creation. 
Pour s'assurer que cette reference ne peut etre modifiee par inadvertance dans une 
autre partie du programme de gestion des comptes, on la rend completement locale au 
corps de la fonction qui cree les comptes : 

# let cree_compte = 

let numero_de_compte = ref 0 in 
(function depot -> 

numero_de_compte := ! numero_de_compte + 1; 

{numero = ! numero_de_compte ; solde = depot});; 
cree_compte : float -> compte = <fun> 

# let compte_de_dupont = cree_compte 500.0;; 
compte_de_dupont : compte = {numero = 1; solde = 500.0} 

# let compte_de_duval = cree_compte 1000.0;; 
compte_de_duval : compte = -fnumero = 2; solde = 1000.0} 

II faut bien comprendre que la reference numero_de_compte est creee une seule fois, 
lors de la construction de la fonction cree_compte. A chaque appel de cree_compte, 
on retrouve ainsi dans numero_de_compte la derniere valeur qui y a ete inscrite. Les 



120 



Les structures de donnees 



variables de ce genre sont appelees variables remanentes dans la litterature informatique 
(et variables statiques en C). Remarquez que Caml les autorise, sans avoir besoin de 
fournir une construction speciale pour cela : le let in habituel et les fonctions anonymes 
suffisent pour programmer des variables remanentes. 

6.7 Structures de donnees et filtrage 

Comme nous l'avons vu a maintes reprises, le filtrage va de paire avec les definitions 
de structures de donnees. Bien plus, la definition d'un type sert de guide pour ecrire 
le squelette du filtrage des fonctions qui operent sur ce type. Nous voulons cependant 
attirer votre attention sur quelques traits avances du filtrage et quelques ecueils qui 
guettent les debutants qui ecrivent leurs premiers filtrages. 

Filtrage de valeurs calculees 

En premier lieu, il faut conserver a l'esprit que le filtrage en Caml est structurel: on 
ne peut utiliser dans les motifs que des constructeurs, des constantes et des variables, 
a l'exclusion des valeurs calculees. C'est pourquoi les variables qui interviennent dans 
un motif ne servent jamais a faire des tests, mais au contraire a lier des parties de la 
valeur filtree. Comparer par exemple, la definition (erronee) de la fonction est_un avec 
celle (correcte) de la fonction test_a_un : 

# let un = 1 ; ; 
un : int = 1 

# let est_un = function 

I un -> true 

I _ -> false ; ; 
Entree interactive: 
> I _ -> false; ; 
> 

Attention: ce cas de filtrage est inutile. 
est_un : ' a -> bool = <fun> 

# est_un 2; ; 

- : bool = true 

# let test_a_un x = if x = un then true else false;; 
test_a_un : int -> bool = <fun> 

# test_a_un 2; ; 

- : bool = false 

Le premier filtre de la fonction est_un comprend la variable un, qui est sans rapport 
avec Pidentificateur un precedemment defini a la valeur 1. Autrement dit, le nom de 
la variable un est sans importance dans le filtrage de la fonction est_un: on peut 
le remplacer par x ou y, et le filtrage est equivalent a x -> true I _ -> false. 
Contrairement a ce que l'utilisateur voulait sans doute exprimer, la fonction est_un 
ne teste done pas si son argument correspond a la meme valeur que Pidentificateur 
un: en fait, la fonction est_un renvoie toujours true. Cela explique le resultat de 
est_un 2. Cela explique aussi le message du compilateur :« ce cas de filtrage est 
inutile ». Le compilateur s'est rendu compte que le cas _ -> ne servir a jamais. C'est 
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pour eviter ce genre de confusions qu'on utilise la convention de faire commencer les 
noms de constructeurs par une majuscule et d'ecrire les variables dans les nitres en 
minuscules. Retenons que 

Toute variable dans un nitre est une nouvelle variable. 



Linearite du filtrage 

II faut egalement savoir que le filtrage en Caml est lineaire, ce qui signifie qu'un 
nom de variable ne peut apparaitre qu'une seule fois dans un filtre. Cette contrainte 
est violee le plus souvent lorsqu'on veut tester l'egalite de deux morceaux d'une valeur. 
Voici une tentative (erronee) de definir la fonction d'egalite : si le couple argument 
comporte deux composantes identiques on renvoie vrai et sinon on renvoie faux. 

# let egal = function 

I (x, x) -> true 

I _ -> false ; ; 
Entree interactive: 
> I (x, x) -> true 
> 

L 'identif icateur x est defini plusieurs fois dans ce motif. 

Les tests d'egalite operes par le filtrage ne concernent que les constantes (les construc- 
teurs). Les tests d'egalite plus generaux ne s'expriment pas par filtrage, ils doivent faire 
l'objet d'une alternative explicite (un if then else) dans l'expression d'une clause de 
filtrage ou bien d'une garde que nous etudions brievement dans le prochain paragraphe. 
Une definition acceptable de egal serait done : 

# let egal = function (x, y) -> if x = y then true else false;; 
egal : 'a * ' a -> bool = <fun> 

Remarque: comme nous l'avons vu au paragraphe 2.1, l'alternative du corps de egal 
est inutile ; on la remplace done simplement par sa partie condition pour obtenir 

# let egal (x, y) = x = y; ; 
egal : 'a * ' a -> bool = <fun> 

Ce qui nous permet de constater que la fonction egal ne definit pas la fonction d'egalite 
mais est en fait un synonyme de l'operateur = (plus precisement egal est la version non 
curryfiee de l'operateur =). 

Combiner filtrage et tests : les gardes 

Vous remarquerez sans doute que le filtrage permet une programmation partic- 
ulierement claire, et autorise Pecriture compacte de multiples conditions. Cependant 
le simple filtrage structurel (et lineaire) ne permet pas de melanger la selection sur la 
forme de la valeur filtree et les tests sur les valeurs effectives des composants du filtre. 
C'est pourquoi le filtrage de Caml propose une construction supplementaire, les gardes, 
pour effectuer des tests arbitraires pendant le filtrage. La clause 

I filtre when condition -> ... 
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oil condition est une expression booleenne quelconque, filtre les memes valeurs que 
f iltre, mais elle n'est selectionnee que dans le cas oil condition est vraie ; dans le cas 
contraire le filtrage continue normalement en sequence. 

A l'aide d'une garde, on ecrit facilement une version correcte de la fonction est_un : 

# let est_un = function 

I x when x = un -> true 
I _ -> false ; ; 
est_un : int -> bool = <fun> 

# est_un 2 ; ; 

- : bool = false 

On ecrit aussi la fonction valeur_d'une_carte encore plus elegamment : 

# let valeur_d'une_carte couleur_d' atout = function 

I As _ -> 11 

I Roi -> 4 

I Dame -> 3 

I Valet c when c = couleur_d' atout -> 20 

I Valet -> 2 

I Petite_carte (9, c) when c = couleur_d' atout -> 14 

I Petite_carte (10, _) -> 10 

I _ -> 0;; 

valeur_d 'une_carte : couleur -> carte -> int = <fun> 

Filtrage exhaustif, filtrage partiel 

Enfin, il faut se metier des filtrages non exhaustifs, c'est-a-dire des filtrages qui 
oublient des cas. C'est une des forces du filtrage de servir de guide pour facilement 
envisager tous les cas concernant une structure de donnees, il faut done en profiter 
pleinement. Si vous oubliez d'envisager certains cas, le compilateur emet un message 
d'avertissement et il faut en tenir compte. Voici un exemple caricatural de filtrage non 
exhaustif : 

# let vide = function [] -> true;; 

Entree interactive: 

>let vide = function [] -> true;; 
> 

Attention: ce filtrage n'est pas exhaustif . 
vide : 'a list -> bool = <fun> 

Dans cette situation, il faut vous efforcer de «boucher les trous» de votre filtrage. 
Laisser des filtrages non exhaustifs dans un programme est generalement considere 
comme un laisser- aller de mauvais aloi. 

6.8 Structures de donnees et recurrence 

Cette section peut etre sautee en premiere lecture. Nous y etendons le principe de 
recurrence aux types de donnees. 

Comme pour les listes, nous aimerions disposer d'un moyen de prouver des pro- 
prietes sur les programmes qui utilisent des types somme ou des types produit. Comme 



Structures de donnees et recurrence 



123 



dans le cas des listes, il suffit de trouver un nombre lie aux donnees, sur lequel on puisse 
employer le principe de recurrence. Pour les listes, nous avions utilise la longueur. En 
fait, il suffit pour generaliser a tous les types somme de remarquer que la longueur 
d'une liste n'est autre que le nombre d'utilisation du constructeur « : : » necessaire a 
la construction de la liste. Pour un type somme general, on pourra ainsi raisonner sur 
le nombre d'occurrences des constructeurs du type. Le cas particulier de la liste vide 
sera transpose a tous les constructeurs constants du type, tandis que le cas de « : : » 
correspondra au nombre d'occurrences des constructeurs non constants. 

Pour les types produit, il y a plusieurs manieres d'etendre le raisonnement par 
recurrence. Pour simplifier, supposons que nous devions demontrer une propriete sur 
un type produit a deux composantes seulement et pour simplifier encore supposons 
que ce soit le type int * int. Pour prouver une propriete P qui depend d'une paire 
d'entiers (m, n), on utilisera par exemple le principe de recurrence suivant : 

Si P(0, 0) est vraie, et des que P(m, n) est vraie alors P(m+1, n) et P(m, n+ 
1) sont vraies, alors P est vraie pour tous m et n. 

Ce principe se demontre facilement a partir du principe de base et se generalise sans 
dimculte a un nombre quelconque de variables. 

Cette extension du principe de recurrence aux structures de donnees se nomme tout 
naturellement la recurrence structurelle. C'est le principal moyen de demonstration a 
la disposition de l'informaticien. II est heureux qu'il soit si simple a apprehender. 
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Ou I 'intelligence naturelle vient au secours de la betise artificielle. 



N vous initie ici au maniement des exceptions, des listes d'association et des 
entrees-sorties elementaires de Caml. Par ailleurs, on implemente un programme 
qui essaye de se faire passer pour un psychanalyste . . . 

7.1 Vue d'ensemble 

Notre « psychanalyste » electronique s'appelle Camelia. C'est un programme inter- 
actif, qui pose des questions a son « patient » et reagit a ses reponses en imprimant un 
message au terminal. La strategie du programme repose done sur l'examen des phrases 
entrees par le patient. Une fois la phrase examinee, le programme choisit au hasard une 
reponse parmi un ensemble de reponses toutes faites, preparees par le programmeur. 
L'examen d'une phrase consiste simplement a chercher des mots connus du programme 
dans la phrase qui lui est soumise. Les phrases sont classees sommairement en trois 
categories: les phrases tres simples (par exemple reduites a «oui» ou «non»), pour 
lesquelles Camelia dispose d'un ensemble de reponses types ; les questions (phrases 
terminees par un caractere « ? ») auxquelles Camelia repond « C'est moi qui pose les 
questions » ou une phrase du meme genre ; et les phrases complexes, pour lesquelles 
Camelia cherche un mot interessant (comme «famille» ou «pere» ou «sexe»). Si le 
programme trouve un mot interessant, il reagit par une phrase type (toujours tiree au 
hasard parmi un ensemble prepare). S'il ne trouve pas de mot interessant, Camelia 
n'a rien a dire d'interessant non plus : elle se contente de relancer la conversation, en 
imprimant par exemple «Parlez-moi un peu de vous». Tout le sel de la conversation 
avec Camelia vient de Putilisateur. C'est lui qui attache un sens precis aux phrases 
creuses de Camelia. L'art du programmeur ne consiste ici qu'a faire dire au programme 
les phrases les plus creuses et les plus ambigues possible, pour laisser Putilisateur in- 
terpreter lui-meme. 

Pour implementer Camelia, nous aurons besoin de fonctions nouvelles sur les listes 
et les chaines de caracteres. D 'autre part nous aurons besoin aussi d'introduire le 
mecanisme d' exceptions de Caml. En effet, le cceur du programme consiste a essayer 
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successivement les differentes strategies possibles, jusqu'a ce que Tune d'entre elles 
reussisse. Nous verrons que c'est justement un emploi typique des exceptions. 

7.2 Les exceptions 

Erreurs et rattrapage d'erreurs 

Dans les langages fonctionnels, toute fonction qui ne boucle pas indefiniment doit 
rendre une valeur, quel que soit son argument. Malheureusement certaines fonctions, 
bien que necessairement definies pour toute valeur de leur type argument, ne peuvent 
pas retourner de valeur sensee pour tous les arguments possibles. Considerez par ex- 
emple la division entre nombres entiers : que doit-elle faire lorsqu'on tente de diviser 
par 0 ? Le probleme se pose aussi pour les donnees structurees : considerez la fonction 
tete qui renvoie la tete d'une liste. Que peut-elle faire lorsque son argument est la liste 
vide ? Dans de telles situations la fonction doit echouer, c'est-a-dire arreter les calculs 
et signaler une erreur. C'est ce que nous avons fait en utilisant la fonction predefmie 
f ailwith : 

# f ailwith; ; 

- : string -> 'a = <fun> 

qui envoie un message indiquant la cause de 1'echec. C'est pourquoi nous defmissons 
tete par : 

# let tete = function 

I [] -> failwith "tete" 
I x: :_ -> x; ; 
tete : 'a list -> 'a = <fun> 

Et maintenant, tete [] nous signale une erreur dans la fonction tete : 

# tete [] ; ; 

Exception non rattrapee : Failure "tete" 

Ce mecanisme de declenchement d'erreurs est utile, mais il se peut que nous voulions 
recuperer ces erreurs, parce que nous savons comment continuer les calculs apres une 
telle erreur (qui devient une erreur « attendue » du point de vue du programmeur) . 
Par exemple, imaginons qu'on doive ajouter systematiquement la tete d'une liste a un 
compteur. Si la liste est vide, il est logique de continuer les calculs en n'ajoutant rien au 
compteur. Dans ce cas, 1'echec signale par la fonction tete doit etre recupere. On utilise 
pour cela la construction try . . . with ... (try signifie essayer et with avec) qui permet 
de calculer une expression en surveillant les exceptions que son calcul peut declencher. 
Cette construction obeit a la syntaxe suivante : try expression with filtrage. Elle signifie 
intuitivement : essayer de calculer la valeur de expression et si cette evaluation declenche 
une erreur qui tombe dans un des cas du filtrage alors retourner la valeur correspondante 
de la clause selectionnee par le filtrage. Par exemple, puisque l'erreur signalee par la 
fonction tete est Failure "tete", on envisagera cet echec dans la partie filtrage du 
try . . . with . . . pour renvoyer une valeur entiere, comme si aucune erreur n'avait ete 
declenchee. On rattrape done 1'echec sur la liste vide et Ton renvoie 0, par la phrase : 

# try (tete [] ) with Failure "tete" -> 0;; 

- : int = 0 
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On ecrira done la procedure decrementation du compteur : 

# let ajoute_au_compteur compteur 1 = 

compteur := ! compteur + (try (tete 1) with Failure "tete" -> 0);; 
ajoute_au_compteur : int ref -> int list -> unit = <fun> 

# let c = ref 0; ; 

c : int ref = ref 0 

# a j out e_au_ compteur c [1]; !c;; 

- : int = 1 

# aj out e_au_ compteur c [] ; !c;; 

- : int = 1 

C'est la methode elementaire d'utilisation des exceptions de Caml. Nous decrivons 
maintenant le mecanisme dans toute sa generalite. 

Valeurs exceptionnelles 

Le trait distinctif du traitement d'erreurs en Caml, et ce qui en fait la generalite, est 
le statut des erreurs : ce sont des valeurs a part entiere du langage. Elles appartiennent 
a un type predefini exn et on les appelle « valeurs exceptionnelles ». On les manipule 
done comme toutes les autres valeurs. Par exemple, l'echec signale par la fonction tete 
est la valeur exceptionnelle Failure "tete" : 

# let echec_de_tete = Failure "tete";; 
echec_de_tete : exn = Failure "tete" 

Remarquez que Failure n'est rien d'autre qu'un constructeur de valeurs du type exn. 

La propriete caracteristique des valeurs exceptionnelles est evidemment qu'on peut 
les declencher (on dit aussi les lever, par analogie avec la locution « lever une perdrix»). 
Pour lever une valeur exceptionnelle on utilise la fonction predefinie raise (en anglais 
to raise signifie « lever ») : 

# raise; ; 

- : exn -> 'a = <fun> 

# raise echec_de_tete ; ; 

Exception non rattrapee: Failure "tete" 

La primitive raise est une fonction «magique», car elle n'est pas definissable dans le 
langage. Elle interrompt immediatement les calculs en cours pour declencher le signal 
(lever la valeur exceptionnelle) qu'elle a regu en argument. C'est ce qui explique qu'un 
appel a la fonction raise puisse intervenir dans n'importe quel contexte avec n'importe 
quel type : les calculs ne seront de toute fagon jamais effectues lorsqu'on evaluera l'appel 
a raise, le contexte peut done faire toutes les hypotheses qu'il desire sur la valeur 
renvoyee par raise. Par exemple : 

# 1 + (raise echec_de_tete) ; ; 
Exception non rattrapee: Failure "tete" 

# "Bonjour" ~ (raise echec_de_tete) ; ; 
Exception non rattrapee: Failure "tete" 

Bien entendu, les phrases essentiellement mal typees, ou raise apparait dans un con- 
texte lui-meme mal type, sont toujours rejetees : 
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# 1 + (raise echec_de_tete) " "Bonjour";; 
Entree interactive: 

>1 + (raise echec_de_tete) ' "Bonjour" ; ; 
> 

Cette expression est de type int, 
mais est utilisee avec le type string. 

La construction try . . . with 

On peut done considerer les valeurs exceptionnelles comme des signaux qu'on envoie 
a l'aide de la fonction raise et qu'on regoit avec la construction try . . . with ... La 
semantique de try e with filtrage est de retourner la valeur de e si e s'evalue 
«normalement», e'est-a-dire sans declenchement d'exception. En revanche, si une 
valeur exceptionnelle est declenchee pendant revaluation de e, alors cette valeur est 
filtree avec les clauses du filtrage et comme d'habitude la partie expression de la clause 
selectionnee est renvoyee. Ainsi, la partie filtrage de la construction try . . . with 
... est un filtrage parfaitement ordinaire, operant sur des valeurs du type exn. La seule 
difference est qu'en cas d'echec du filtrage, la valeur exceptionnelle qu'on n'a pas pu 
filtrer est propagee, e'est-a-dire declenchee a nouveau. Comparez ainsi une evaluation 
habituelle : 

# try tete [1] with Failure "tete" -> 0;; 

- : int = 1 

une evaluation declenchant une valeur exceptionnelle rattrapee : 

# try tete [] with Failure "tete" -> 0;; 

- : int = 0 

et finalement une propagation de valeur exceptionnelle : 

# try tete [] with Failure "reste" -> 0;; 
Exception non rattrapee: Failure "tete" 

Definition d'exceptions 

De nombreuses fonctions predefinies de Caml, quand elles echouent, declenchent 
l'exception Failure avec leur nom comme argument. C'est pourquoi l'exception 
Failure possede un « declencheur » predefini, la fonction failwith. Nous pouvons 
maintenant ecrire sa definition : 

# let failwith s = raise (Failure s) ; ; 
failwith : string -> 'a = <fun> 

Si les exceptions predefinies ne vous satisfont pas, parce que vous souhaitez par 
exemple que votre valeur exceptionnelle transporte autre chose qu'une chaine de car- 
acteres, vous pouvez definir une nouvelle exception. En effet, le type exn est un type 
somme (il y a plusieurs exceptions differentes ; c'est done un type «ou»), mais d'un 
genre tres particulier : sa definition n'est jamais achevee. C'est pourquoi il est possible 
a tout moment de lui ajouter de nouveaux constructeurs, soit constants soit fonction- 
nels. Pour definir un nouveau constructeur du type exn, done une nouvelle exception, 
on utilise le mot-cle exception suivi d'une definition de constructeur de type somme. 
Pour definir la nouvelle exception constante Stop, on ecrira done simplement : 
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# exception Stop; ; 

L' exception Stop est def inie. 

La definition d'une exception fonctionnelle comportera une partie « of type» qui precise 
le type de l'argument de l'exception. 

# exception Erreur_f atale of string; ; 
L'exception Erreur_f atale est def inie. 

# raise (Erreur_f atale "Cas imprevu dans le compilateur") ; ; 
Exception non rattrapee : Erreur_f atale "Cas imprevu dans le compilateur" 

Voici la description precise des definitions d'exception a l'aide de diagrammes syntax- 
iques : 

Definition d 'exceptions ::= exception definition- de-constructeur 

(and definition- de-constructeur)* 

definition- de-constructeur ::= identificateur 

identificateur of type 

Les exceptions comme moyen de calcul 

Les exceptions ne servent pas seulement a gerer les erreurs : elles sont aussi utilisees 
pour calculer. Dans ce cas, la valeur exceptionnelle transporte un result at, ou bien 
signale un evenement attendu. A titre demonstratif, nous definissons la fonction 
caractere_dans_chaine, qui teste l'appartenance d'un caractere a une chaine et dont 
nous avons besoin pour implementer Camelia. On pourrait evidemment ecrire cette 
fonction a l'aide d'une fonction recursive locale : 

# let caractere_dans_chaine chaine car = 

let rec car_dans_chaine i = 

i < string_length chaine && 
(chaine . [i] = car I I 
car_dans_chaine (i + 1)) in 
car_dans_chaine 0;; 
caractere_dans_chaine : string -> char -> bool = <fun> 

Cependant, cette fonction recursive code evidemment une boucle; nous preferons done 
Pecrire avec une boucle. On parcourt done la chaine argument a l'aide d'une boucle 
for en recherchant le caractere donne. Cependant, que faire si le caractere est trouve? 
II faut arreter la boucle et signaler sa presence. Ce comportement revient a declencher 
une exception. Nous definissons done l'exception Trouve. Et nous surveillons la boucle 
de recherche : si l'exception est declenchee, la fonction renvoie true. En revanche, si la 
boucle se termine normalement, e'est que le caractere n'etait pas dans la chaine ; dans 
ce cas, on renvoie false en sequence. 

# exception Trouve;; 
L'exception Trouve est def inie. 

# let caractere_dans_chaine chaine car = 

try 

for i = 0 to string_length chaine - 1 do 

if chaine. [i] = car then raise Trouve 
done; 
false 
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with Trouve -> true;; 
caractere_dsLns_chaine : string -> char -> bool = <fun> 

Ici le declenchement de l'exception n'est pas un cas d'erreur, mais plutot un evenement 
heureux: on a detecte la presence du caractere dans la chaine. On ne peut pas dire 
non plus que ce soit vraiment un evenement exceptionnel, une « exception » au calcul 
normal : c'est un signal attendu, tout simplement. 

Sans le mecanisme des exceptions la fonction precedente devrait etre ecrite avec une 
reference initialisee a false en debut de boucle et mise a true lorsqu'on rencontre le 
caractere. 

# let car_dans_chaine chaine car = 
let trouve = ref false in 
for i = 0 to string_length chaine - 1 do 
if chaine. [i] = car then trouve := true 
done ; 
! trouve ; ; 

car_dans_ chaine : string -> char -> bool = <fun> 

Cette version est un peu moins efncace, puisque le parcours de la chaine est toujours 
effectue completement, alors qu'il est inutile de le continuer des qu'on a detecte la 
presence du caractere. Cet argument d'emcacite est minime : le choix entre les deux 
versions est essentiellement une affaire de gout personnel, de style et d'experience. Nous 
preferons la version avec exception, car elle se generalise plus facilement a plusieurs 
evenements attendus dans la boucle. Au surplus, la boucle s'arrete instantanement 
quand l'evenement arrive et c'est tres souvent un comportement algorithmiquement 
necessaire du programme. 

7.3 Fonctions de recherche dans les listes 

Les reponses toutes faites de Camelia sont stockees dans des listes d'une forme 
particuliere, les listes d'association, qui associent des reponses a certains mots de la 
phrase du patient. 

Appartenance d'un element a une liste 

Nous commengons par ecrire la fonction membre, qui determine si son premier ar- 
gument est element d'une liste donnee en second argument. Travaillant sur des listes, 
la fonction membre doit par consequent envisager les deux cas possibles de listes ; d'ou 
le squelette de fonction : 

let membre e = function 
I []->... 

I x : : reste -> ... ; ; 

Le cas de la liste vide est simple : l'element a rechercher n'apparait certainement pas 
dans la liste. 

let membre e = function 
I [] -> false 
I x : : reste -> ... ; ; 
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Dans le cas general, il faut tester si e est egal a la tete de la liste (x), sinon interroger 
recursivement le reste de la liste. On obtient done : 

# let rec membre elem = function 
I [] -> false 

I x : : reste -> x = elem I I membre elem reste; ; 
membre : 'a -> 'a list -> bool = <fim> 



Listes d'association 

Les listes d'association sont simplement des listes de paires ou le premier element 
de la paire est une cle et le second la valeur associee a la cle. (Pour les tenants de 
Bourbaki, e'est le graphe d'une fonction donnee en extension.) Par exemple, considerez 
une liste d'adresses. On associe au nom d'une personne son adresse : 

# let adresses = 

[("Pierre Caml" , "Domaine de Voluceau, 78153 Le Chesnay Cedex"); 
("Xavier Light" ,"45 rue d'Ulm, 75005 Paris")];; 
adresses : (string * string) list = 
["Pierre Caml", "Domaine de Voluceau, 78153 Le Chesnay Cedex"; 
"Xavier Light", "45 rue d'Ulm, 75005 Paris"] 

Dans notre programme, une liste d'association donnera les reponses possibles associees 
aux phrases tres simples. Voici un extrait de la liste d'association des phrases simples : 

let reponses_aux_phrases_simples = 
[(□, 

[ I "Voulez-vous changer de sujet?"; "Continuez" I ] ) ; 
(["et"; "alors"], 

[|"Alors expliquez-moi" ; "Ne soyez pas si agressif " I ] ) ; 
(["non"] , 

[|"C'est vite dit"; "Pourriez-vous preciser ?"|]); 
(["oui"] , 

[|"C'est un peu rapide"; "Donnez-moi plus de details" I ])]; ; 

Cette liste associe a la liste vide (correspondant a une reponse vide) le tableau de 
reponses possibles [ I "Voulez-vous changer de sujet?"; "Continuez" I ]• Elle as- 
socie a la phrase reduite a et alors? les reponses [| "Alors expliquez-moi"; "Ne 
soyez pas si agressif" |]. II nous faut done retrouver la valeur associee a une 
phrase dans cette liste d'association. La fonction generale de recherche dans une liste 
d'association s'ecrit tres simplement : on teste si la cle a ete rencontree, auquel cas 
on renvoie la valeur associee ; sinon on cherche dans le reste de la liste. Si la liste est 
epuisee, il n'y a pas d'espoir de trouver la valeur associee et Ton declenche l'exception 
constante Pas_trouve. 

# exception Pas_trouve;; 
L'exception Pas_trouve est definie. 

# let rec associe_de x = function 

I [] -> raise Pas_trouve 
I (cle, valeur) : : 1 -> 

if x = cle then valeur else associe_de x 1;; 
associe_de : 'a -> ('a * 'b) list -> 'b = <fun> 
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# associe_de "Pierre Caml" adresses;; 

- : string = "Domaine de Voluceau, 78153 Le Chesnay Cedex" 

# associe_de "Xavier Light" adresses;; 

- : string = "45 rue d'Ulm, 75005 Paris" 

# associe_de "Gerard Coq" adresses;; 
Exception non rattrapee: Pas_trouve 

Cette fonction est predefinie en Caml sous le nom de assoc. En cas d'echec, elle 
declenche toujours une exception. Dans le systeme Caml Light c'est l'exception 
Not_found (signifiant «pas trouve» en anglais). C'est souvent l'exception declenchee 
par les fonctions de recherche de la bibliotheque Caml Light. 

Des listes d'association multi-cles 

Pour les besoins de notre programme nous devons gerer des listes d'association plus 
compliquees que des listes (cle, valeur). En effet, nous considerons que certains mots 
« interessants » sont synonymes et done que leurs reponses associees sont les memes. Par 
exemple, ordinateur et machine appellent les memes reponses. Le pluriel d'un mot 
est souvent traite comme le mot lui-meme, par exemple ami et amis. Dans ces listes, 
une valeur n'est done plus associee a une seule cle, mais a une liste de cles equivalentes. 
Nous ecrivons done la fonction qui teste si une cle donnee fait partie de la liste de cles 
et retourne en ce cas la valeur associee : 

# let rec associe_dans_liste cle = function 

I [] -> raise Pas_trouve 

I (liste_de_cles , valeur) :: reste -> 

if membre cle liste_de_cles then valeur 

else associe_dans_liste cle reste;; 
associe_dans_liste : 'a -> ('a list * 'b) list -> 'b = <fun> 

De la meme maniere, nous avons besoin de chercher, parmi une liste de cles la valeur 
associee a la premiere cle qui figure dans les cles d'une liste d'association (listes de 
cles, valeur). Nous parcourons done la liste de cles argument en cherchant l'associe de 
la premiere cle rencontree. S'il n'y a pas d'associe a cette cle, nous cherchons, parmi 
le reste de la liste de cles argument, la premiere cle qui ait un associe dans la liste 
d'association. Remarquez au passage que le caractere ' est autorise dans les noms 
d'identificateur en Caml. 

# let rec associe_d'un_element_de liste_de_cles liste_d' association = 

match liste_de_cles with 
I [] -> raise Pas_trouve 
I cle : : reste -> 
try 

associe_dans_liste cle liste_d' association 
with Pas_trouve -> 

associe_d'un_element_de reste liste_d'association; ; 
associe_d'un_element_de : 'a list -> ('a list * 'b) list -> 'b = <fun> 
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7.4 Traitements de chaines de caracteres 

Notre programme va effectuer une certaine normalisation de P entree de Putilisateur : 
passer systematiquement toute la phrase en minuscules et oter les signes de ponctuation 
et accents eventuels, par exemple. Les fonctions correspondantes illustrent le traitement 
de chaines de caracteres en Caml. 

Passage en minuscules 

En machine, les caracteres sont evidemment enregistres comme des nombres. Le 
codage utilise en Caml s'appelle le code ASCII. II suffit de le faire imprimer par Caml 
pour comprendre comment sont ranges les caracteres de l'alphabet (remarquez aussi 
les chiffres) : 

# for i = 32 to 126 do 

if i < 100 then print_string " " ; 
print_int i; print_string " "; 
print_char (char_of _int i) ; print_string " " ; 
if i mod 8=7 then print_newline () 
done ; 



print_newline () ; ; 
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- : unit = () 



Le passage en minuscule revient done a un simple calcul sur le code ASCII du car- 
actere : si le caractere est une majuscule, on lui ajoute 32 pour obtenir la minuscule 
correspondante. 

# let minuscule_de car = 

if int_of_char car >= 65 && int_of_char car <= 90 
then char_of_int (int_of_char car + 32) 
else car ; ; 
minuscule_de : char -> char = <fim> 

Pour passer une chaine de caracteres tout entiere en minuscules, il suffit d'iterer la 
fonction precedente. 

# let minuscules chaine = 

let chaine_en_minuscules = create_string (string_length chaine) in 

for i = 0 to string_length chaine - 1 do 

chaine_en_minuscules . [i] <- minuscule_de chaine. [i] 
done; 
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chaine_en_minuscules ; ; 
minuscules : string -> string = <fun> 

Nous avons egalement besoin d'extraire une sous-chaine d'une chaine. La sous- 
chaine est reperee par ses indices de debut et de fin. On utilise la fonction predefinie 
sub_string qui calcule une sous-chaine partant d'un indice donne et d'une longueur 
donnee : 

# sub_string "Caml" 0 3;; 
- : string = "Cam" 

# let sous_chaine s depart fin = 

sub_string s depart (fin - depart + 1) ; ; 
sous_ chaine : string -> int -> int -> string = <fun> 

Suppression des accents 

La simplification d'un mot consiste a supprimer les accents, que l'on considere 
comme non significatifs. On admet egalement que l'utilisateur ait pu taper e~ pour 
e ou e' pour e. Enfin, on supprime les articles elides qui apparaissent eventuellement 
au debut du mot. Par exemple, l'air devient air. 

Plutot que de «mettre en dur» ces conventions dans le code de la fonction de 
simplification, nous ecrivons une fonction generale, parametree par une table de sim- 
plifications, qui n'est autre qu'une liste d'association entre chaines. 

# let simplifications = 

[("a", "a"); ("§","c"); ("<§", "e"); ("e","e"); ("e","e"); ("u","u"); 
("a"', "a"); ("e'","e"); ("e"', "e"); ("e~","e"); ("u"',"u"); 
("qu>", ""); ("1"', ""); ("d"', "")];; 

La fonction de simplification consiste a recopier le mot argument dans une nouvelle 
chaine. Les caracteres sont recopies un par un, sauf si le caractere courant et les car- 
acteres suivants ferment une des chaines a simplifier, auquel cas on les remplace par la 
chaine associee dans la table de simplifications. 

# let simplif ie_mot mot = 

let nouveau_mot = create_string (string_length mot) in 

let i = ref 0 and j = ref 0 in 

let rec cherche_traduction = function 

I [] -> raise Pas_trouve 

I (original, traduction) :: reste -> 

let longueur = string_length original in 

if ! i + longueur <= string_length mot 

&& sub_string mot ! i longueur = original 

then (longueur, traduction) 

else cherche_traduction reste in 
while ! i < string_length mot do 
try 

let (longueur, traduction) = 

cherche_traduction simplifications in 
blit_string traduction 0 nouveau_mot !j 
(string_length traduction) ; 
i := !i + longueur; 
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j := !j + string_length traduction 
with Pas_trouve -> 

nouveau_mot . [ ! j ] <- mot . [ ! i] ; 
i := !i + 1; 

j := !j + 1 
done ; 

sub_string nouveau_mot 0 ! j ; ; 
simplifie_mot : string -> string = <fun> 

Division en mots 

La division d'une chaine de caracteres en mots est une autre operation delicate. 
Elle consiste a parcourir la chaine (a l'envers) a la recherche des separateurs. Des qu'un 
separateur est trouve, on extrait un mot qu'on ajoute a la liste de mots mots. On 
maintient un compteur j qui indique le dernier caractere du mot courant, tandis que le 
compteur de boucle i sert a en reperer le debut. Notez que le caractere «fin de ligne» 
est ecrit \n. A Pinterieur d'une chaine de caracteres, la notation \n represente aussi un 
retour a la ligne. 

# let divise_en_mots chaine = 
let mots = ref [] in 

let j = ref (string_length chaine - 1) in 
let ajoute_mot i j = 
if i <= j then 

mots := simplif ie_mot (sous_chaine chaine i j) :: !mots in 
for i = string_length chaine - 1 downto 0 do 
match chaine. [i] with 

I (' ' I <\n< I I I V I '-' I '!' I '?') -> 

ajoute_mot (i+1) !j; j := i - 1 
I _ -> 0 
done ; 

ajoute_mot 0 !j; (* extraction du dernier mot *) 
Imots ; ; 

divise_en_mots : string -> string list = <fun> 

Nous rencontrons un trait nouveau du langage : les barres verticales a Pinterieur des 
nitres, comme dans ' ' I '\n' I ... Ces filtres sont des nitres a plusieurs cas que Ton 
appelle les filtres «ou». lis filtrent l'union des cas filtres par leurs composants. C'est 
une simple facilite syntaxique, qui evite de recopier plusieurs fois le corps de la clause. 
Par exemple, la clause (1 I 2) -> true est equivalente aux deux clauses 1 -> true 
I 2 -> true. 

7.5 Camelia 

La base de donnees 

Le principe de Camelia est done d'utiliser un ensemble de phrases ecrites pour elle 
par le programmeur. Le bon choix de ces phrases intervient beaucoup dans la qualite 
de Pechange. Nous donnons done ici ce que nous appelons pompeusement la « base de 
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donnees » de Camelia, qui n'est autre qu'un ensemble de listes d'association simples ou 
multi-cles. La base de donnees comprend les listes suivantes : 

• salutations : le mot de la fin de Camelia, typiquement « Ce sera long et difficile, 
revenez me voir souvent ... ». 

• relances : les phrases utilisees quand le programme ne sait plus quoi dire, typ- 
iquement «Parlez-moi encore de vous» ou «Etes-vous marie ?». 

• reponses_types : ce que le programme repond quand il detecte un caractere « ? » 
et rien de plus interessant dans la phrase. Typiquement « C'est moi qui pose les 
questions ». 

• reponses_aux_phrases_simples : pour repondre aux phrases a l'emporte-piece 
comme «Et alors ?» ou «Oui». Reponse typique : «Alors, expliquez-moi » ou 
«Donnez-moi plus de details ». 

• reponses_aux_petits_mots : quand le programme n'a rien de mieux a faire, il 
cherche un mot tres souvent employe en francais qui lui permette de faire une 
reponse sensee, sans rien comprendre. Exemple typique : si la phrase contient le 
mot « jamais » le programme peut repondre « Jamais me semble un peu fort, non 
?». 

• reponses_aux_mots_interessants : le programme surveille si le patient em- 
ploie des mots «psychanalytiques», comme pere ou famille, et reagit alors en 
consequence. Reponses typiques : « Racontez-moi vos problemes » quand le mot 
«malheureux» est detecte. 



let salutations = 

[|"Ce sera long et difficile, revenez me voir \ 

souvent . . . " ; 
"Votre cas n'est pas simple, et meme assez \ 

inquietant ... A bientSt?"; 
"Diagnostic simple: sans conteste vous etes \ 

paranoiaque . " ; 

"Avec une probability de 92.37234'/,: \ 
perversion polymorphe . " ; 

"Vous souffrez d'une schizophrenie en rapide \ 

evolution, DANGER" ; 
"D'apres mes calculs, votre sante mentale est \ 

compromise . " ; 
"Mon ultime conseil: il ne faut pas rester \ 

comme cela, soignez-vous ! " I ] ; ; 
let relances = 

[| "Parlez-moi un peu de vous"; 
"Etes-vous marie?"; 
"Avez-vous des enfants?"; 
"Parlons de votre entourage"; 
"Aimez-vous la vie?"; 

"Aimez-vous ce moyen de communiquer?" ; 

"Parlons de votre famille"; 

"Parlez-moi encore de vous"; 

"Que pensez-vous des ordinateurs?" ; 

"Que pensez-vous de Linux?"; 

"Que pensez-vous de Caml?"; 

"De quoi parlerons-nous maintenant?" ; 

"Avez-vous beaucoup d'amis?"; 

"Avez-vous de graves problemes?"; 

"Parlez-moi de vos problemes"; 



"Faites-vous des reves etranges?"; 
"Faites-vous souvent des cauchemars?" ; 
"Que pensez-vous de 1' amour?"; 
"Que pensez-vous de la sexualite?"; 
"Quels sont vos violons d'Ingres?"; 
"Qu'est-ce qui vous interesse dans la vie?"; 
"Que pensez-vous de la vie en general?" I ]; ; 
let reponses_types = 

[| "C'est moi qui pose les questions"; 

"Je ne suis pas la pour repondre a vos \ 

questions" ; 
"Question tres interessante , mais qu'en \ 
pensez-vous?" ; 
"Quelle question!"; 

"Pourquoi me posez-vous cette question?"; 
"Vous le savez tres bien" ; 
"La reponse est sans importance"; 
"Vous le dire ne vous apporterait rien" ; 
"Un psychanalyste n'a pas le droit de \ 

repondre a ce genre de questions"; 
"Je n'ai pas le droit de vous repondre"; 
"II m'est interdit de vous le dire"; 
"Vous ne comprendriez pas" ; 
"Permettez-moi de ne pas repondre" ; 
"Laissez-moi reflechir. Pouvez-vous \ 

reformuler la question?"; 
"Je ne suis pas certaine de bien comprendre \ 

la question" ; 
"Je ne sais pas"; 
"Cherchez un peu"; 

"C'est evident pour tout le monde, sauf pour \ 
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vous; ref lechissez ! " ; 
"C'est a vous de trouver la reponse"; 
"Cherchez bien au fond de vous-meme, vous le \ 
savez en fait" |] ; ; 
let reponses_aux_phrases_simples = 
[([], 

[ I "Voulez-vous changer de sujet?"; 
"Contlnuez" ; 

"Contlnuez, vous m' interessez" ; 
" Je vous ecoute" ; 

"Vous n'avez rien d'autre a dire?"; 
"Continuez, je vous prie"; 
"C'est tout ce que vous avez a dire?"; 
"M'avez-vous tout dit la-dessus?"; 
"Je n'en sais pas encore assez sur vous; \ 
continuez" I ] ) ; 
(["quoi"] , 

[ I "Excusez-moi je pensais a autre chose, \ 
continuons " ; 
"Ref lechissez" ; 

"Changeons de sujet, s'il vous plait"; 
"Je me comprends"; 

"II me semblait pourtant avoir ete claire"; 
"La communication est difficile, non?"; 
"Ah les hommes ! lis ne comprennent rien!"; 
"Cessez de poser des questions"; 
"N'auriez-vous pas des problemes a me \ 
comprendre?" I ] ) ; 
(["non"] , 
[|"C'est vite dit"; 

"Pourriez-vous preciser?"; 
"Je note: c'est non"; 
"Mais encore?"; 

"La reponse n'est pas si simple, non?"; 
"Vous etes vraiment tres sur de vous"; 
"Ne vous arrive-t-il pas de douter de \ 
vous-meme?" ; 

"Ne repondez pas toujours oui ou non"; 
"Syndrome du yes/no. Expliquez-vous , que \ 
diable ! " ; 

"Au moins vous ne souffrez pas de diarrhee \ 
verbale" ; 

"Comment pouvez-vous §tre si sur de \ 
vous?"|]); 
(["si"], 
CI "SI bemol?" ; 

"D'accord, d'accord"; 

"Mouais, je m'en doutais un peu, \ 

f igurez-vous" ; 
"Expliquez-vous, ''si'' ne me suffit pas"; 
"Reponse trop laconique"; 
"Syndrome du si" ; 

"Vous n'etes pas bavard vous au moins" |]); 
(["oui"], 
[| "C'est un peu rapide"; 

"Donnez-moi plus de details"; 

"Vous pourriez preciser?"; 

"Je voudrais comprendre pourquoi"; 

"La reponse n'est pas si simple, non?"; 

"C'est franc et massif au moins"; 

"Qa ne m'en dit pas vraiment plus, \ 

expliquez-moi pourquoi."; 
"Vous etes sur?"; 
"Soyez moins bref : developpez" ; 
"Plus laconique tu meurs" ; 



"Si vous ne m'expliquez pas mieux, comment \ 
vous comprendre?"; 
"Ne repondez pas toujours oui ou non"; 
"Dont acte"; 

"Et pour quelles raisons?" I ] ) ; 
(["et"; "alors"], 
[|"Alors, expliquez-moi"; 
"Ne soyez pas si agressif"; 

"Alors j'aimerais avoir plus d' informations \ 
la-dessus" ; 
"Zorro est arrive"; 

"Et alors, et alors, expliquez-vous!"; 
"C'etait un test pour savoir si vous \ 
suiviez" I ] ) ; 
(["encore"] , 
[| "On peut changer de sujet, si vous voulez?"; 
"II faut bien crever l'abces!"; 
"Les choses importantes doivent etre \ 
dites! " ; 

"II faut savoir affronter les problemes"; 
"Je suis plus tetue que vous!"; 
"Pensez-vous que je radote?"; 
"Dites tout de suite que je suis \ 
gateuse ! " I ] ) 

] ;; 

let reponses_aux_petits_mots = 
[(["nest"] , 

[|"Pas du tout?"; 
"Vraiment pas?"; 
"Pourquoi pas?" |]) ; 
(["jamais"] , 
[|"Ne dites jamais ''jamais'"'; 

"Jamais me semble un peu fort, non?"; 
"Jamais?"|]); 
(["non"] , 
[|"En §tes vous sur?"; 
"Pourquoi pas?"; 

"Que diriez-vous dans le cas contraire?"; 
"C'est une opinion dependable"; 
"Je saurai au moins votre opinion \ 
la-dessus" I ] ) ; 
( ["rien"] , 
[| "Rien du tout?" ; 
"Pourquoi pas?"; 

"Que diriez-vous dans le cas contraire?"; 
"Voila qui est franc"; 
"Au moins c'est clair" ; 
"Meme pas un petit peu?"; 
"Rien est un peu exagere, non?"|]); 
( ["pourquoi"] , 
[| "Parce que"; 

"Je ne reponds pas aux questions des \ 
malades" ; 

"Si vous le savez pas, ce n'est pas a moi \ 

de vous 1 ' apprendre " ; 
"Personne ne peut repondre a cette \ 

question" ; 

"Pensez-vous qu'une machine peut repondre \ 
a 5a?"; 

"Ce serait trop long a expliquer" ; 
"Je sais bien pourquoi, mais vous ne \ 

comprendriez pas"; 
"C'est difficile a dire" I]) i 
( ["aucun"] , 
[| "Vraiment aucun?"; 
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"Pas le moindre?" ; 
"Le regrettez-vous?" ; 
"C'est un fait nouveau pour moi"|]); 
(["pas"], 

□ "Qa me semble un peu negatif"; 
"Vraiment?"; 

"Pourquoi cela?"; 

"Je ne m'en serais pas doutee"; 

"Difficile"; 

"J'ai 1' habitude d' entendre ga" ; 

"Etes vous trouble a ce point?"; 

"Vous ne devriez pas parler ainsi"|]); 
(["sait"; "sais"; "savoir"] , 
[|"Le savoir est une denree rare"; 

"Stes-vous certain de le savoir?"; 

"Ne subsiste-t-il pas de doute?"; 

"Je ne pourrais pas en dire autant"; 

"Difficile a admettre"; 

"En §tes-vous si sur?"|]); 
(["oui"], 
[I "En etes-vous certain?"; 

"Vous etes vraiment sur de vous"; 

"5a ne me semblait pas evident"; 

"Pourtant j'aurais cru le contraire"; 

"C'est interessant, continuez"; 

"Quelle affirmation sans detours"; 

"Tres bien"; 

"Quel aveu!"; 

"Bon"|]) ; 
( ["quoi" ; "comment"] , 

□ "C'est a vous de me le dire"; 
"Difficile a dire"; 

"Ref lechissez, vous comprendrez" ; 
"La reponse est en vous"|]); 
( ["merci" ; "remercie"] , 
[|"Ne me remerciez pas"; 

"Je suis la pour vous aider"; 
"Allez allez, continuez"; 
"C'est tout naturel"; 
"C'etait vraiment facile" |]) 

] ;; 

let reponses_aux_mots_interessants = 
[(["peur";"peurs"] , 

[ |"Parlez-moi de vos frayeurs"; 
"Avez-vous souvent peur?"; 
"Avez-vous des peurs inexpliquees , des \ 
cauchemars?" I ] ) ; 
(["mort"; "morte"; "morts"] , 
[|"Je vous plains beaucoup"; 

"La mort est un sujet tres grave"; 
"II faut essayer de prendre le dessus"; 
"II faut pourtant quelquefois affronter la \ 
mort " ; 

"C'est malheureux"; 
"Essayez de ne plus y penser"|]); 
( [ "malheureux " ; "malheureuse " ; 
"probleme"; "problemes"] , 
[ I "Racontez-moi vos problemes"; 

"Quels malheurs sont les vStres?"; 
"Avez-vous vraiment des raisons de vous \ 
plaindre?" ; 

"Le bonheur existe aussi vous savez."|]); 
( ["malheur" ; "malheurs"] , 
□ "Malheur est peut-etre exagere, non?"; 
"Le malheur est une notion relative. \ 



Qu'entendez-vous par malheur?"; 
"Bonheur, malheur, je n'entends parler que \ 
de ga. Continuez ." I ]) ; 
( [ " ennui " ; " ennuies " ; " ennuyez " ] , 
[|"L' ennui, ga depend de vous"; 
"Est-ce que je vous ennuie?"; 
"Je le regrette pour vous"; 
"C'est dommage pour vous"|]); 
(["ennuis"] , 
[| "Les ennuis sont souvent passagers"; 

"Tout ne peut pas etre rose, n'est-ce pas?"; 
"Quelle tristesse, n'est-ce pas?"; 
"Est-ce vraiment tres grave?" |]); 
( ["ordinatuer"] , 
[| "Vous voulez dire ordinateur, je \ 
suppose" I ] ) ; 
(["ordinateur"; "ordinateurs" ; "machine"; \ 
"machines"] , 
[ I "Connaissez-vous bien 1 ' inf ormatique?" ; 
"Changeons de sujet, celui-la ne \ 
m'interesse pas"; 
"Ah les machines ! " ; 
"Les machines c'est si b§te!"; 
"Je connais bien les ordinateurs, et \ 

j'evite de les frequenter!"; 
"Je n'ai pas d'avis sur les machines en \ 
general" ; 

"Vous savez, je suis une machine moi-meme \ 
..."□); 

( ["inf ormatique" ; "inf ormaticien" ; \ 
"inf ormaticiens"] , 
[| "Quel beau metier de s'occuper des \ 
machines" ; 

"Ah 1 ' inf ormatique ! " ; 

"L' inf ormatique est un dur metier"; 

"C'est difficile 1 ' inf ormatique , non?"; 

"Aimez-vous vraiment 1 ' inf ormatique?" ; 

"Vous n'aimez pas follement 1 ' inf ormatique , \ 
m'a-t'on dit" |] ) ; 
(["famille"] , 
[| "Avez-vous des freres et soeurs?"; 

"Parlez-moi de votre pere"; 

"Parlez-moi de votre mere"; 

"Voila qui m'interesse enormement"; 

"Dites-m'en plus sur votre famille"; 

"La famille c'est souvent complique" I ] ) ; 
(["pere"] , 
[ I "Ressemblez-vous a votre pere?"; 

"Parlez-moi encore de votre pere"; 

"Et votre mere?" ; 

"Votre pere?" |] ) ; 
(["mere"] , 

[| "Ressemblez-vous a votre mere ou a votre \ 
pere?" ; 

"Parlez-moi de votre mere"; 
"Parlez-moi encore de votre mere"; 
"Et votre pere?" ; 
"Votre mere?" I ] ) ; 
(["ami"; "amis"; "amie"; "amies"; "copains"; \ 
"copines"] , 
[| "Avez-vous beaucoup d'amis?"; 
"Comment vous etes-vous connus?"; 
"Comment cela se passe-t-il avec vos amis?"; 
"Avez-vous de frequentes disputes avec vos \ 
amis?" ; 
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"Des amies?"; 
"Des petites amies?"; 
"Des petits amis?"; 
"Depuis combien de temps vous \ 
connaissez-vous?" I ] ) ; 
( ["deteste" ; "hais"] , 
[|"Est-ce raisonnable de detester a ce \ 
point?" ; 

"Le mot n'est-il pas un peu fort?"; 
"Moderez un peu vos sentiments" I ]) ; 
(["mari"] , 

[|"Etes-vous depuis longtemps ensemble?"; 
"Comment l'avez-vous rencontre?"; 
"Pensez-vous qu'il faille §tre fidele a son \ 
mari?"|]); 
( ["amour"] , 
[|"Et l'amour fou, qu'en pensez-vous?"; 
"C'est complique l'amour, non?"; 
"L'amour, l'amour, le connaissez-vous \ 
vraiment?" ; 
"Avez-vous deja connu l'amour?"; 
"Connaissez-vous le grand amour?"; 
"L'amour, comment l'avez-vous \ 
rencontre?" I ] ) ; 
(["argent"] , 
[|"Faute d'argent, c'est douleur sans \ 
pareille" ; 

"Avez-vous des problemes d'argent?"; 
"L'argent a beaucoup de connotations, \ 

continuez sur le sujet"; 
"Aimez-vous beaucoup l'argent?"; 
"Avez-vous peur de manquer d'argent?" I ]) ; 
(["caml"] , 

[| "Vous voulez dire les cigarettes Camel?"; 
"J'ai entendu parler de ce remarquable \ 

langage Caml"; 
"Tout ce que vous allez dire pourra etre \ 

retenu contre vous"; 

"Sans Caml je ne serais pas la; je refuse \ 

done d'en parler"; 
"A mon avis, Caml est sans egal"; 
"Ce langage Caml est clairement en avance \ 

sur nombre de ses successeurs ! " ; 
"Caml est puissant, et quelle belle \ 

syntaxe, he in?"; 
"Caml, c'est vraiment facile"; 
"Caml, c'est un langage de la sixieme \ 

generation, non?"; 

"C'est vrai que si Caml n'existait pas, il \ 

faudrait l'inventer d'urgence!"; 
"Je suis categorique: Caml est un langage \ 

tres simple!"; 

"En Caml, c'est trop simple: les programmes \ 
marchent touj ours ! " ; 

"Un tel langage, quelle aubaine pour les \ 
humains ! " ; 

"Caml, 9a c'est du langage!" 

□ 
); 

(["sml"] , 

[| "Pas de provocation s'il vous plait"; 
"Ne me parlez pas des mammouths"; 
" SML , dites-vous? " ; 

"Jamais entendu parler de SML, c'est \ 
quoi?" ; 



"Faudrait savoir est-ce ML ou pas?"|]); 
( ["langage" ; "langages"] , 
[ I "Vous voulez dire langage de \ 
programmation?" ; 

"Je ne connais que le langage Caml"; 

"Connaissez-vous bien le langage Caml?"; 

"Hors de Caml, point de salut, non?"; 

"A mon avis, Caml est sans egal"; 

"Qui, c'est puissant, mais quelle syntaxe!"; 

"Et les problemes de syntaxe?" 

I] 
); 

( ["programme" ; "programmes"] , 
[| "Vous parlez de programmes d'ordinateur?" ; 
"II y a souvent des erreurs dans vos \ 
programmes , non? " ; 
"Connaissez-vous vraiment la \ 
programmation?" ; 

"Vos programmes s'ecriraient plus \ 

naturellement en Caml"; 
"Vos programmes s'ecriraient plus \ 

simplement en Caml"; 
"A mon avis, la programmation c'est facile, \ 

non?" ; 

"Avez-vous des problemes avec vos \ 
programmes?" 

I] 
); 

( ["chameaux" ; "chameau"] , 
[|"Le chameau est un charmant animal d'une \ 
grande sobriete, non?"; 

"Le chameau est mon animal favori, pas \ 
vous?" ; 

"Certes le chameau est d'un caractere un \ 
peu difficile, mais il en est de \ 
charmants, n'est-ce-pas?" ; 

"Un chameau a deux bosses ou un \ 
dromadaire?" ; 

"Qu' avez-vous de plus a dire sur les \ 
chameaux?" I ] ) ; 
( ["naime"] , 
[|"Meme pas un peu?"; 

"Detestez-vous carrement?"; 
"Pourquoi cette repulsion?"; 
"Aimer me semble un sentiment etrange, pas \ 
vous?" ; 
"Peut-on aimer vraiment?"; 
"Aimer ne pas aimer est-ce vraiment la \ 
question?" |] ) ; 
(["aime"] , 
[| "Beaucoup?" ; 

"Sans aucune retenue?"; 
"Pourquoi cette attirance?"; 
"Comment expliquer ce sentiment?"; 
"Peut-on aimer vraiment?"; 
"Aimer ne pas aimer est-ce vraiment la \ 
question?" I ] ) ; 
( ["sexe"] , 

[ I "Personnellement je ne suis pas concernee"; 
"Qa paralt interessant ! " ; 

"On m'a dit que le sexe est important pour \ 
les humains"; 
"Le sexe d'accord, mais l'amour?"; 
"Avez-vous entendu parler du Sida?"|]); 
( ["cauchemar" ; "cauchemars" ; "reve"; "reves"] , 
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[I "J'ai du mal a comprendre; je ne r§ve \ 
jamais ! " ; 

"Vos activites nocturnes m' interessent . \ 

Continuez" ; 
"Qa me paralt bizarre!"; 
"Les cauchemars vous reveillent-ils la \ 
nuit?"; 
"Avez-vous des insomnies?"; 
"Faites-vous beaucoup de cauchemars?"; 
"Faites-vous souvent des r§ves etranges?"; 
"Que pensez-vous de 1 'hypnose?" I ] ) ; 
(["anxieux"; "anxieuse"], 
[I "L'anxiete est une vraie maladie"; 

"Les anxieux ont souvent des problemes avec \ 

leur entourage. L' avez-vous remarque?"; 
"L'anxiete est une vraie souffrance, \ 
non?" |] ) ; 
(["stupide"; "idiot"], 
[ I "Pensez-vous que ce soit un crime d'etre \ 
stupide?" ; 

"J'ai d'excellents amis qui sont stupides \ 
aussi" ; 

"La sottise est la chose du monde la mieux \ 
partagee" ; 

"Ne soyez pas stupide non plus"; 
"Vous-meme, n' etes-vous pas stupide \ 

quelquef ois?" ; 
"Ne pensez-vous pas que c'est quelquef ois \ 
utile d'§tre stupide?" I ]) ; 
(["femme"] , 
[| "Etes-vous depuis longtemps ensemble?"; 
"Comment votre rencontre s'est-elle \ 
passee?" ; 

"Aimez-vous cette femme?"; 



"Est-ce une femme ordinaire?"!]); 
(["mal"; "difficile"], 
[|"Je vous plains beaucoup"; 

"Etes-vous certain d'Stre objectif?"; 
"Je peux tenter de vous aider"; 
"Et c'est tout ce que vous vouliez me \ 
dire?"; 

"Est-ce pour cela que vous vous §tes \ 
adresse a moi?" I]); 
( ["fatigue"] , 
[| "La fatigue n'est pas une maladie"; 

"Quand on est fatigue ne faut-il pas se \ 
reposer?" ; 

"Je suis une machine: je ne connais pas la \ 
fatigue" ; 

"Ah freles humains qui connaissez la \ 
fatigue" ; 

"Que pensez-vous de la fatigue en general?"; 
"Pourquoi pensez-vous que ga vaut la peine \ 
de se fatiguer?"; 

"Les gens fatigues le sont souvent de leur \ 
fait, non?"|]); 
(["tu"; "vous"; "toi"], 
[|"Ne parlons pas de moi"; 

"Parlons de vous, c'est plus important"; 

"Si on parlait de vous?"; 

"Moi, je ne suis qu'une machine ..."; 

"Moi?"; 

"Excusez-moi" ; 

"Ne m'en veuillez pas si je vous interroge. \ 

Continuez" ; 
"Vous ne le pensez pas vraiment?" I ] ) 



7.6 Dialogue avec l'utilisateur 

Tirage aleatoire 

Pour donner un peu de variete au dialogue, il nous faut evidemment une fonction qui 
choisisse un element au hasard dans un tableau de valeurs possibles. C'est tres simple 
en utilisant le generateur aleatoire de nombres entiers fourni par Caml. Dans le systeme 

Caml Light, il s'agit de la fonction random int, qui renvoie un entier compris entre 0 

(inclus) et son argument entier (exclu). II sufflt done de l'appeler avec la longueur du 
tableau. 

# let au_choix_dans v = v. (random int (vect_length v));; 

au_choix_dans : 'a vect -> 'a = <fun> 



Les utilitaires de salutations 

Un utilitaire pour ecrire des messages au terminal : 

# let message s = print_string s; print_newline ();; 
message : string -> unit = <fun> 

# message (au_choix_dans salutations) ; ; 

Diagnostic simple: sans conteste vous etes paranoiaque. 
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- : unit = () 

# message (au_choix_dans salutations) ; ; 

Votre cas n'est pas simple, et meme assez inquietant ... A bientot? 

- : unit = () 

Deux petites fonctions pour dire bonjour et au revoir, en gerant le prix de la consulta- 
tion : 

# let prix_a_payer = ref 0;; 
prix_a_payer : int ref = ref 0 

# let bonjour () = 

prix_a_payer := 40; 
message 

"\nBonjour, je m'appelle Camelia. \n\nJe suis la \ 
pour vous aider a resoudre vos problemes psychologiques . \ 
\nTerminez en me disant : Au revoir. \n\ 
\nAllons-y. Parlez-moi de vous.\n";; 
bonjour : unit -> unit = <fun> 

# let au_revoir () = 

message "\nLe resultat de mes observations : \n" ; 
message (au_choix_dans salutations) ; 
message "\nAu revoir ...\n"; 

print_string "Vous me devez "; print_int !prix_a_payer ; 
message " euros. Cheque a l'ordre de Camelia. Merci.";; 
au_revoir : unit -> unit = <fun> 

Pour lire la reponse du patient, on utilise la fonction predefinie read_line qui lit une 
ligne tapee au clavier. De maniere tres realiste, chaque echange entre le patient et 
Camelia accroit la note de la consultation. 

# let ecoute_le_patient () = 

prix_a_payer := ! prix_a_payer + 2; 
print_string "» "; 
read_line () ; ; 
ecoute_le_patient : unit -> string = <fun> 

Pour simplifier le travail de recherche des phrases courtes, on utilise une fonction qui re- 
connait les phrases synonymes. Par exemple, la phrase comment? est assimilee a quoi?. 
De meme, bien sur, oui et bien sur que oui sont assimilees a oui. 

# let rec synonyme_de_phrase = function 

I ["comment"] -> ["quoi"] 

I ["bien";"sur"] -> ["oui"] 

I "bien" :: "sur" :: "que" :: suite -> synonyme_de_phrase suite 

I ( ["evidemment"] I ["certainement"] ) -> ["oui"] 

I "pas" :: "du" :: "tout" ::_ -> ["non"] 

I phrase -> phrase;; 
synonyme_de_phrase : string list -> string list = <fun> 

La boucle de dialogue 

Nous en arrivons maintenant au coeur du programme : les fonctions qui « interpretent » 
les reponses de l'utilisateur. Commengons par un petit utilitaire pour determiner si la 
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consultation est terminee. C'est le cas si la phrase tapee est «Au revoir» ou «Salut». 
Rappelons que le caractere ' est autorise dans les identificateurs (ainsi x' et x' ' sont 
des noms utilisables en Caml) : on peut done choisir tout naturellement c'est_f ini. 

# let c'est_fini ph = (ph = ["au"; "revoir"]) II (ph = ["salut"]);; 
c'est_fini : string list -> bool = <fun> 

Pour repondre au patient, la fonction repond_au_patient se contente d'essayer suc- 
cessivement ses strategies predefinies et d'ecrire au terminal la reponse trouvee. Pour 
cela, on commence par passer le texte du patient en minuscules, puis on le transforme 
en une liste de mots, qu'on appelle phrase. Si cette phrase indique la fin de la consul- 
tation, on lance l'exception Fini. Sinon, on cherche l'ensemble des reponses possibles 
pour la phrase donnee en essayant de trouver un associe a la phrase ou a l'un de ses 
mots, dans la base de donnees de Camelia. Lorsque l'une de ces tentatives echoue, elle 
declenche forcement l'exception Pas_trouve, qui est rattrapee pour essayer la strategic 
suivante. Finalement, la strategic par defaut est de choisir une phrase de relance de la 
conversation ; c'est done la clause with du dernier try. Lorsque les reponses possibles a 
la phrase entree sont trouvees, il ne reste qu'a en choisir une au hasard et a l'imprimer. 

# exception Fini;; 

L' exception Fini est definie. 

# let repond_au_patient reponse = 

let r = minuscules reponse in 

let phrase = divise_en_mots r in 

if c'est_fini phrase then raise Fini else 

let reponses_possibles = 

try associe_de (synonyme_de_phrase phrase) 
reponses_aux_phrases_simples 

with Pas_trouve -> 

try associe_d'un_element_de phrase 
reponses_aux_mots_interessants 

with Pas_trouve -> 

if caractere_dans_chaine r 

then reponses_types 

else try associe_d'un_element_de phrase 
reponses_aux_petits_mots 
with Pas_trouve -> relances in 
message (au_choix_dans reponses_possibles) ; 
print_newline () ; ; 
repond_au_patient : string -> unit = <fun> 

Le programme lui-meme itere les fonctions ecoute_le_patient et repond_au_patient 
en surveillant la fin de l'interaction. L'interruption inopinee de la consultation est rat- 
trapee, pour rappeler la politesse a Putilisateur (l'interruption d'un programme Caml 
declenche une exception predefinie, sys Break dans le systeme Caml Light). 

# let camelia () = 

bonjour (); 
try 

while true do 

repond_au_patient (ecoute_le_patient ()) ; 
done 

with Fini -> au_revoir () 
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I sys Break -> 

message " \n\n\nVous pourriez etre poli \ 
et me dire au revoir . . . \n\n\n" ; 
au_revoir 0 ; ; 
camel i a : unit -> unit = <fun> 



7.7 Exemple de session 

Tout est pret pour qu'un des auteurs se fasse soigner : 
# camelia () ; ; 

Bonjour, je m'appelle Camelia. 

Je suis la pour vous aider a resoudre vos problemes psychologiques . 

Terminez en me disant: Au revoir. 

Allons-y. Parlez-moi de vous. 

>> J'ai des tas de problemes docteur. 

Quels malheurs sont les votres? 

>> Voila mon petit chat est mort 

La mort est un sujet tres grave 

» Dui je ne me console pas 

En etes-vous certain? 

» Dui 

Si vous ne m'expliquez pas mieux, comment vous comprendre? 

>> Voila: c'etait un chat angora vert qui revait beaucoup la nuit 

Parlez-moi un peu de vous 

» Ce n'est pas le sujet. C'est mon chat qui m'interesse 

et 1 ' inf ormatique evidemment . 
Aimez-vous vraiment 1 ' inf ormatique? 

» Qa c'est sur. Surtout quand j' arrive a faire tourner mes 
programmes . 

A mon avis, la programmation c'est facile, non? 

» Ben, pas vraiment si vous voulez savoir! 

Vous ne le pensez pas vraiment? 

» Si bien su~r. 

Que pensez-vous de 1' amour? 

» Quoi? 

II me semblait pourtant avoir ete claire 

>> OK. Revenons a mes problemes. Je suis malheureux a cause de mon chat. 
Racontez-moi vos problemes 

» Mes enfants ne dorment plus depuis la mort de ce chat 
Essayez de ne plus y penser 

>> C'est pas facile: ils pleurent tout le temps... 

Que pensez-vous de la vie en general? 

» Vaste question. 

Que pensez-vous de Caml? 

>> Voila qui est franchement precis. C'est un superbe langage de programmation. 
Je ne connais que le langage Caml 

>> Qa m'etonne que vous connaissiez un langage de programmation. 
Parlons de vous, c'est plus important 

>> Dui. J'aime ma femme, mes enfants, les fins de semaine a la mer 
Est-ce une femme ordinaire? 
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» Non, si vous saviez combien elle est extraordinaire 
Moi, je ne suis qu'une machine ... 
>> Bien sympathique au demeurant 
Que pensez-vous de Linux? 

» N'auriez-vous pas un leger tropisme vers 1 ' inf ormatique ? 
Excusez-moi 

» Vous etes toute excusee. 

Ne m'en veuillez pas si je vous interroge. Continuez 
>> Mon chat angora est mort vous disais-je 
Je vous plains beaucoup 

» Oui mais cela ne me console pas vraiment . Que faut-il faire ? 

Permettez-moi de ne pas repondre 

>> Mais qui pourra m' aider alors ? 

Pourquoi me posez-vous cette question ? 

>> Parce que j'ai besoin d'aide evidemment ! 

Parlez-moi encore de vous 

>> J'ai besoin d'aide ! 

Que pensez-vous des ordinateurs ? 

>> Ce sont des machines completement idiotes 

Connaissez-vous bien 1 ' inf ormatique ? 

>> Un peu! Je suis inf ormaticien prof essionnel ! 

Quel beau metier de s'occuper des machines 

>> Oui mais les langages, c'est encore plus rigolo! 

Hors de Caml, point de salut, non? 

>> Mais doit-on ne parler que de Caml ? 

Sans Caml je ne serais pas la; je refuse done d'en parler 
>> Mais pourquoi ? Ca m' interesse beaucoup! 
II m'est interdit de vous le dire 

>> Ah bon ? C'est le programmeur qui vous en a empechee ? 
Moi, je ne suis qu'une machine ... 

» Bien sympathique au demeurant. Bon je crois que l'exemple suffira. 

Je vais me coucher. Au revoir Camelia 
Qu'est-ce qui vous interesse dans la vie ? 
» Ca suffit! 

Faites-vous souvent des cauchemars? 
» Salut. 

Le resultat de mes observations: 

Avec une probability de 92.372347,: perversion polymorphe . 
Au revoir . . . 

Vous me devez 110 euros. Cheque a l'ordre de Camelia. Merci. 
- : unit = () 

7.8 Pour aller plus loin 

Notre programme est base sur les idees de Joseph Weizenbaum et de son systeme 
Eliza (Communications of the ACM n°9, janvier 1966, et n°10, aout 1967). Le but de 
Joseph Weizenbaum etait d'explorer la comprehension que pouvait avoir un ordinateur 
de la conversation d'un humain. Eliza etait bien plus sophistique que notre Camelia : 
e'etait un programme generique d'analyse de textes et de reconnaissance de mots dans 
des textes, qu'on pouvait parametrer par un domaine particulier. Par exemple, pour 
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le domaine psychologique, on obtenait le programme Doctor, qui existe encore sur de 
nombreux systemes Unix. Eliza etait capable d'interpreter les mots selon le contexte 
dans lequel ils apparaissaient et de tenir a jour une representation globale de ce qui 
s'etait deja dit entre l'ordinateur et l'utilisateur. II pouvait ainsi apprendre des faits dans 
un domaine precis, puis les utiliser ensuite a bon escient. Le principal apport d'Eliza 
est sans doute d'avoir montre qu'une machine est capable de simuler un comportement 
raisonnablement intelligent lorsque le champ de la conversation est assez etroit pour que 
le programmeur puisse cerner au prealable les mots et les concepts qui vont intervenir 
et les introduire dans un programme. 
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Un petit dessin vaut mieux qu 'un long discours . . . 

OUS abordons maintenant le graphisme en Caml et illustrons l'emploi des types 
enregistrement a champs mutables. Accessoirement, nous realiserons aussi de 
jolis dessins qu'on obtient grace au graphisme «tortue», dans l'esprit du langage 
de programmation Logo. 



8.1 Fr act ales 

Le but de ce chapitre, notre chef-d'oeuvre graphique, est de tracer une courbe 
fractale tres connue : le flocon de neige de von Koch. Une courbe fractale est une 
courbe tres «tordue», c'est-a-dire comportant beaucoup de plis. Generalement definies 
recursivement a partir d'un motif de base, les fractales reproduisent a l'infini le motif a 
echelle de plus en plus reduite. Ainsi, quel que soit le niveau de detail ou on l'examine, 
la fractale presente toujours son motif. Le flocon de von Koch est defini a partir du 
motif suivant : 




Ce motif est ensuite reproduit sur chacun des cotes du motif de base a echelle reduite, 
ce qui donne : 




La generation suivante sera done : 



Ce mecanisme est reproductible a l'infini en mathematiques. Nous 
nous contenterons evidemment d'atteindre la resolution maximale de 
l'ecran. Le flocon de von Koch proprement dit s'obtient simplement 
en reproduisant trois fois le motif sur les trois cotes d'un triangle 
equilateral. La premiere generation donne done le dessin ci-contre. 
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Afin de dessiner le flocon, nous allons implementer un crayon programmable, ver- 
sion simplifiee de la tortue du langage Logo. Nous pourrons ensuite programmer ses 
deplacements sur l'ecran pour qu'il trace le flocon. 



8.2 Le graphisme de Caml 



Le crayon se deplace dans le repere du graphisme de Caml. Ce repere a la forme 
suivante : 

axe des y 
size_y () 



point en (0, 0) 



Ecran 
i point en (x, y) 



size_x () 



axe des x 



L'origine est done en bas a gauche de l'ecran. La taille de l'ecran en x et en y est donnee 
par les primitives size_x et size_y. 

Le graphisme de Caml utilise les notions de point courant et de couleur de trace 
courante. L'ordre lineto x y trace une ligne de la couleur courante, joignant le point 
courant au point de coordonnees (x,y) . Le point courant se trouve alors a l'extremite du 
segment qu'on vient de tracer. L'ordre moveto x y permet de placer le point courant au 
point (x,y). Un petit detail: les primitives graphiques ne sont pas accessibles directe- 
ment ; il faut prealablement prevenir le systeme qu'on desire les utiliser par la directive 
#open "graphics" ; ; (le diese # fait partie de la directive, ce n'est pas le signe d'invite 
du systeme interactif). Nous considererons pour l'instant cette directive comme une 
formule magique indispensable a l'utilisation du graphisme. Nous Pexpliquerons plus 
tard, dans le chapitre 10. 

# #open "graphics";; 

De meme, pour realiser effectivement un dessin, il faut d'abord «ouvrir» l'ecran 
graphique par un appel a la fonction predefinie open_graph. 

# open_graph " " ; ; 

- : unit = () 

Dessinons maintenant un triangle rectangle isocele dont Tangle droit a pour 
sommet l'origine du repere : 

# moveto 0 0; lineto 0 50; lineto 50 0; lineto 0 0;; 

- : unit = () 

On voit apparaitre a l'ecran le dessin en marge. 

La bibliotheque graphique de Caml est independante de la machine sur laquelle 
tourne le systeme en ce qui concerne Pensemble des primitives graphiques. En revanche, 
le nombre de points de l'ecran et Pensemble des couleurs possibles sont evidemment 
lies au materiel. 
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Pourquoi ne pas utiliser les primitives lineto et moveto pour dessiner le flocon? 
Tout simplement parce qu'il faut leur preciser les coordonnees absolues des points du 
trace, ce qui signifierait pour le flocon calculer les coordonnees de toutes les extremites 
des segments qui torment le flocon. Cela parait vraiment difficile. En revanche, nous 
decrirons facilement les mouvements relatifs du crayon, le faisant tourner et avancer 
tour a tour. 

D'autre part le repere du graphisme de Caml ne comporte que des points dont les 
coordonnees sont entieres, puisqu'il s'agit de points de Pecran. Cependant, pour des 
raisons de precision du trace du crayon, nous maintiendrons les coordonnees du crayon 
en nombres decimaux. II nous faudra done arrondir les coordonnees du crayon avant 
d'effectuer ses deplacements sur Pecran. 

8.3 Les nombres en representation flottante 

L'implementation du crayon necessite done des « nombres a virgule» et plus 
precisement «a virgule flottante », qui sont fournis en Caml par le type predefini 
float. On les appelle « nombres flottants» en jargon informatique. lis sont caracterises 
par leur virgule mais la virgule dans les nombres se note avec un point en anglais ; 
naturellement e'est la notation avec un point qui s'est imposee en informatique. Le 
nombre 3,5 se note done 3.5 en Caml. De meme, les operations de base sur les 
flottants, operations arithmetiques et comparaisons, ont pour nom celui de l'operation 
correspondante sur les entiers suffixe par un point. 

# 1.0 +. 2.0 *. 3.14159 >=. 18.9 /. 2.718;; 

- : bool = true 

En plus des quatre operations, on dispose des fonctions transcendantes habituelles : 
Pexponentielle (exp), la fonction puissance (power) et les fonctions trigonometriques 
cosinus (cos), sinus (sin), tangente (tan), et leurs reciproques, logarithme (log), racine 
carree (sqrt), arccosinus (acos), arcsinus (asin) et arctangente (atan). On dispose 
aussi de conversions entre entiers et flottants: int_of_float et f loat_of _int. 

# sqrt 2.0;; 

- : float = 1.41421356237 

Nous definissons la fonction round pour arrondir les coordonnees du crayon a Pentier 
le plus proche : 

# let round x = 

if x >=. 0.0 then int_of_float (x +. 0.5) 

else int_of_float (x -. 0.5);; 
round : float -> int = <fun> 

8.4 Le crayon electronique 

Le comportement du « crayon electronique » est le suivant : 

• Le crayon trace dans une direction qu'on peut faire varier a la demande et que 
nous nommerons la « visee » du crayon. 

• II se deplace d'une distance qu'on lui indique, dans la direction de sa visee actuelle. 
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• En avancant le crayon ne laisse pas de trace s'il est leve et trace un trait s'il est 
baisse. 

Pour gerer le crayon, il nous faut done tenir a jour et faire evoluer son etat courant: ses 
coordonnees, son angle de visee et le mode de trace (crayon leve ou non). Cet etat est 
decrit par un type definissant toutes les caracteristiques du crayon ; e'est done un type 
«et» : un type enregistrement. Les coordonnees du crayon et son angle de visee sont 
des nombres flottants et le statut (leve ou non) du crayon est evidemment un booleen. 
Cela nous conduirait done a definir le type etat comme 
type etat = 

{ x : float; y : float; visee : float; leve : bool };; 
et l'etat courant du crayon comme 
let crayon = 

{ x = 0.0; y = 0.0; visee = 0.0; leve = false };; 

Cependant, ce type ne nous permet pas de faire evoluer le crayon. Or, nous n'avons 
qu'un seul crayon dont nous voulons faire varier dynamiquement les caracteristiques. 
Pour cela, il faut explicitement declarer au systeme Caml que nous desirons modifier 
physiquement les champs de l'enregistrement qui modelise le crayon. Comme explique 
a la section 6.6, il suffit d'indiquer que les champs du type etat sont modifiables, en 
faisant preceder les etiquettes correspondantes du mot-cle mutable lors de la definition 
du type. 

# type etat = 

{ mutable x : float; mutable y : float; 

mutable visee : float; mutable leve : bool };; 
Le type etat est def ini . 

Le controleur de type nous autorisera maintenant a changer les valeurs des car- 
acteristiques d'un objet du type etat. La construction d'une valeur d'un enregistrement 
a champs mutables ne differe pas du cas habituel. Nous definissons done le crayon 
comme une donnee du type etat par : 

# let crayon = { x = 0.0; y=0.0; visee = 0.0; leve = false };; 
crayon : etat = {x = 0.0; y = 0.0; visee = 0.0; leve = false} 

Tourner 

Faire tourner le crayon consiste a changer son angle de visee, pour lui im- 
primer le nouveau cap. On utilise pour cela la modification physique d'un champ 
d'enregistrement, notee par une fleche vers la gauche, <-. Ainsi, la fonction qui permet 
de lever ou de baisser le crayon est simplement : 

# let fixe_crayon b = crayon. leve <- b; ; 
fixe_crayon : bool -> unit = <fun> 

L'angle de visee crayon. visee est exprime en radians et suit les conventions du 
cercle trigonometrique des mathematiques : le zero est a l'est et le crayon tourne 
dans le sens inverse de celui des aiguilles d'une montre. On rappelle que le cercle 
trigonometrique est le cercle de rayon 1 d'un repere orthonorme. Si Tangle 6 est repere 
par les demi-droites Ox et OM, alors les coordonnees (x,y) de M sont respectivement 
le cosinus et le sinus de l'angle 0. 
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Cependant, pour plus de commodite, les or- 
dres de changement de cap donnes au crayon 
seront exprimes en degres. La conversion 
est simple, puisqu'on a Angle(en radians) = 
Angle(en degres) x 7r/180. Apres avoir nomme 
la valeur 7r/180 pour faire commodement 
les conversions de degres en radians, nous 
definissons la fonction tourne qui change le cap 
du crayon. 

# let pi_sur_180 = 

let pi = 4.0 *. (atan 1.0) in 
pi /. 180.0; ; 
pi_sur_180 : float = 0.0174532925199 

# let tourne angle = 

crayon. visee <- (crayon. visee +. angle *. pi_sur_180) ; ; 
tourne : float -> unit = <fun> 

Avancer 

La primitive qui fait avancer le crayon se contente de calculer les deplacements du 
crayon necessaires selon l'axe des abscisses et l'axe des ordonnees (dx et dy), a l'aide des 
formules trigonometriques de base, puis de modifier les coordonnees du crayon, et enfin 
de deplacer le crayon, soit en tragant (si le crayon est baisse) a l'aide de la primitive 
graphique lineto, soit sans tracer de trait (si le crayon est leve) en utilisant alors la 
primitive moveto. 

# let avance d = 

let dx = d * . cos (crayon. visee) 
and dy = d *. sin (crayon. visee) in 
crayon. x <- crayon. x +. dx; 
crayon. y <- crayon. y +. dy; 
if crayon. leve 

then moveto (round crayon. x) (round crayon. y) 
else lineto (round crayon. x) (round crayon.y);; 
avance : float -> unit = <fun> 

Utilitaires d'initialisation du crayon 

Pour simplifier le travail de l'utilisateur du crayon, le repere du crayon est proche de 
celui des mathematiques : l'origine est au centre de l'ecran graphique. Les coordonnees 
de l'origine sont contenues dans deux constantes zero_x et zero_y qui valent done 
respectivement size_x 0/2 et size_y 0/2. 

On initialise done le crayon en fixant ses coordonnees au centre de l'ecran (zero_x, 
zero_y), en le faisant pointer vers l'est, en le baissant pour qu'il laisse une trace et en 
amenant le point courant du graphisme de Caml a la position actuelle du crayon. Enfin, 
et e'est le plus difficile, on efface l'ecran. La fonction obtient cet effet en peignant tout 
l'ecran avec la couleur du fond. L'ecran forme un rectangle de coin inferieur gauche (0, 0) 
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et de coin superieur droit (size_x (), size_y ()). On utilise la fonction predefinie 
fill_rect, qui remplit un rectangle avec la couleur de trace courante. Cette couleur 
est fixee par la fonction graphique set_color. Nous avons choisi les couleurs de fond 
et de trace comme sur une feuille de papier, c'est-a-dire blanc pour le fond (couleur 
predefinie white) et noir pour les points traces (couleur predefinie black). 

# let couleur_du_trace = black; ; 
couleur_du_ trace : color = 0 

# let couleur_du_f ond = white;; 
couleur_du_f ond : color = 1 

# let zero_x = f loat_of _int ((size_x ()) / 2);; 
zero_x : float = 3000.0 

# let zero_y = f loat_of _int ((size_y ()) / 2);; 
zero_y : float = 2000.0 

# let vide_ecran () = 

set_color couleur_du_f ond; 

fill_rect 0 0 (size_x ()) (size_y ()); 

set_color couleur_du_trace ; 

crayon. x <- zero_x; 

crayon. y <- zero_y; 

crayon. visee <- 0.0; 

crayon. leve <- false; 

moveto (round crayon. x) (round crayon.y);; 
vide_ecran : unit -> unit = <fun> 



8.5 Premiers dessins 

Dessiner un carre avec le crayon est particulierement simple : il suffit d'avancer 
quatre fois de la longueur du cote, en tournant a chaque fois d'un angle droit : 

# let carre c = 

for i = 1 to 4 do 

avance c; tourne 90.0 
done ; ; 

carre : float -> unit = <fun> 

Nous initialisons le crayon, puis lancons le dessin. 

# vide_ecran () ; carre 75.0;; 
- : unit = () 



Dessinons maintenant les ailes d'un moulin : 

# let aile c = 

avance c; carre c; avance (-.c);; 
aile : float -> unit = <fun> 
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# let ailes c = 

tourne 45.0; 

for i = 1 to 4 do aile c; tourne 90.0 done;; 
ailes : float -> unit = <fun> 

# vide_ecran () ; ailes 25.0;; 

- : unit = () 

Une simili-rosace s'obtient en faisant tourner un carre sur son coin 
inferieur gauche : 

# vide_ecran () ; 

for i = 1 to 36 do carre 40.0; tourne 10.0 done;; 

- : unit = () 



Un cercle se dessine simplement a petits pas, en avangant un peu (d'un point, par 
exemple) et tournant un peu (d'un degre), pendant 360 degres. 

# let rond () = 

for i = 0 to 360 do 

avance 1.0; tourne 1 . 0 
done ; ; 

rond : unit -> unit = <fun> 

# vide_ecran () ; rond () ; ; 

- : unit = () 

II n'est pas difficile de definir une procedure generale pour dessiner un cercle de rayon 
R, ou des portions de cercle d'un rayon et d'un angle donnes. On doit maintenant 
calculer le pas du crayon : mais puisque le crayon parcourt la circonference complete 
du cercle en 360 pas, ona2x7rxi? = 360 x pas et le pas est done pas = 7r/180 x R : 

# let cercle r = 

let pas = r *. pi_sur_180 in 

for i = 0 to 360 do avance pas; tourne 1.0 done;; 
cercle : float -> unit = <fun> 

# let arc_gauche r angle = 

let pas = r *. pi_sur_180 in 

for i = 0 to angle do avance pas; tourne 1.0 done;; 
arc_gauche : float -> int -> unit = <fun> 

# let arc_droit r angle = 

let pas = r *. pi_sur_180 in 

for i = 0 to angle do avance pas; tourne (-. 1.0) done;; 
arc_droit : float -> int -> unit = <fun> 

# vide_ecran () ; cercle 50.0; 
arc_gauche 25.0 180; arc_droit 25.0 180; 
fixe_crayon true; tourne (-. 90.0); avance 25.0; 
fixe_crayon false; cercle 2.0; 
fixe_crayon true; avance 50.0; 
fixe_crayon false; cercle 2.0;; 

- : unit = () 
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8.6 Le flocon de von Koch 

Pour le flocon de von Koch, il faut definir le motif de base, dont la taille depend du 
parametre c et de la generation n. Appelons motif cette procedure. A la generation 0, 
on avance simplement de la longueur du cote, c. Sinon il faut tracer les quatre morceaux 
du motif de base en tournant des bons angles. Ces quatre morceaux sont eux-memes des 
motifs, mais de la generation precedente. Chaque morceau est done obtenu par un appel 
recursif a motif de la forme motif (n-1) d, ou d est la longueur d'un morceau. II ne 
nous reste plus qu'a determiner cette longueur. Or il est facile de voir qu'en parcourant 
quatre fois la distance d en suivant le motif, on avance en fait lineairement de 3d : 




3d 

C'est done que, si chacun des morceaux mesure d, la longueur totale du motif est 3d. 
Comme cette longueur totale est c, on en deduit que 3d = c et done d = c/3. On obtient 
la procedure suivante : 

# let rec motif n c = 

if n = 0 then avance c else 
begin 

motif (n-1) (c /. 3.0); tourne 60.0; 
motif (n-1) (c /. 3.0); tourne (-120.0); 
motif (n-1) (c /. 3.0); tourne 60.0; 
motif (n-1) (c /. 3.0) 
end; ; 

motif : int -> float -> unit = <fun> 

Le flocon a la n lcmc generation s'obtient simplement en tragant 3 fois le motif de 
generation n sur les trois cotes d'un triangle equilateral. 

# let flocon n c = 

for i = 1 to 3 do motif n c; tourne (-120.0) done;; 
flocon : int -> float -> unit = <fun> 



# vide_ecran () ; 

flocon 2 100.0; ; 
- : unit = () 



# vide_ecran () ; 

flocon 3 100.0; ; 
- : unit = () 



# vide_ecran () ; 

flocon 4 100.0; ; 
- : unit = () 



Impressionnant, n'est-ce pas? 
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Un peu de recul permet souvent d'avancer . . . 




OUS NOS outils graphiques sont maintenant en place et nous sommes 
prets a transformer les programmes de pilotage du crayon electronique 
en un veritable langage de programmation. Ce chapitre introduit done la 



notion de syntaxe abstraite et presente un exemple devaluation d'arbres de syntaxe 
abstraite. Nous aborderons aussi l'important concept d'analyse syntaxique. Nous esquis- 
serons ainsi les etapes importantes d'une methodologie de manipulation des donnees 
formelles qui nous servira dans toute la suite. 

9.1 Presentation 

Le but des programmes qui suivent est de simplifier encore l'utilisation du crayon 
pour qu'il puisse devenir un jeu d'enfant. Pour rendre le crayon utilisable par tous, nous 
aimer ions assouplir le langage du crayon, de fagon a : 

1. avoir des ordres de deplacement plus explicites : avancer et reculer pour les 
deplacements, tourner a droite et a gauche pour les changements de l'angle de 
visee, lever et baisser la mine pour le trace ; 

2. definir une notion de repetition, pour eviter a Putilisateur du crayon la manipu- 
lation des boucles «for» de Caml; 

3. pouvoir utiliser indifferemment des entiers ou des flottants dans les commandes 
du crayon, pour eviter les problemes de « . » obligatoires dans les nombres (source 
d'erreurs innombrables pour les debutants). 

On ecrirait par exemple repete 4 [avance 100 droite 90] pour tracer un carre de 
cote 100, au lieu de l'expression for i = 1 to 4 do avance 100.0; tourne 90.0 
done. 

Si Ton tente de definir directement des procedures Caml pour obtenir ces nouvelles 
fonctionnalites, on se heurte tres vite a des limites dues a la confusion entre le langage 
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d'implementation (Caml) et le langage implements (celui du crayon). Expliquons-nous : 
l'ensemble des fonctions de manipulation du crayon defmies dans le chapitre precedent, 
avance, tourne, vide_ecran et fixe_crayon, forment un mini-langage graphique, 
completement inclus dans Caml. En effet, il faut necessairement utiliser les traits syn- 
taxiques de Caml pour definir les dessins. Ainsi la definition du carre utilise explicite- 
ment les definitions globales (le let), la boucle for, la sequence (;) et les conventions 
lexicales de Caml pour les nombres flottants ( . 0) : 

let carre c = 

for i = 1 to 4 do 

avance c; tourne 90.0 
done ; ; 

II n'y a rien la que de tres normal apres tout : nous n'avons fait qu'implementer un 
ensemble de fonctions Caml. La question est de savoir comment aller plus loin et se 
debarrasser de la syntaxe de Caml pour notre langage graphique. 

9.2 Le retard a revaluation 

Voyons ou et pourquoi nous nous heurtons a des dimcultes reelles dans notre quete 
de la simplicite. Les fonctions avance, recule, tourne_a_droite et tourne_a_gauche 
sont faciles a definir. 

# let recule d = avance (-. d) 

and tourne_a_droite a = tourne (-. a) 

and tourne_a_gauche = tourne;; 
recule : float -> unit = <fun> 
tourne_a_droite : float -> unit = <fun> 
tourne_a_gauche : float -> unit = <fun> 

Pour lever et baisser le crayon, on pourrait ecrire : 

# let baisse_le_crayon () = fixe_crayon false 
and leve_le_crayon () = fixe_crayon true;; 

baisse_le_crayon : unit -> unit = <fun> 
leve_le_crayon : unit -> unit = <fun> 

Ce n'est pas parfait, car on oblige encore l'utilisateur a taper baisse_le_crayon () 
pour baisser le crayon. Cette paire de parentheses obligatoire n'est pas evidente pour 
tout le monde. 

La grande difficulte est la fonction repete. On aimerait fournir a repete un nombre 
de repetitions a effectuer et une liste d'ordres graphiques a repeter, par exemple repete 
4 [avance 50.0; tourne 90 . 0] . Nai'vement, on definirait : 

# let repete n 1 = 

for i = 1 to n do 1 done; ; 
repete : int -> ' a -> unit = <fun> 

Malheureusement la liste 1 des ordres est completement evaluee (et done les ordres 
qu'elle contient sont executes) au moment de l'appel de la fonction repete ! Dans le 
corps de repete on ne fait que relire une liste de valeurs «rien», ce qui n'a pas grand 
effet. 
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# repete 4 [print_int 1; print_char '*'];; 
*1- : unit = () 

Le 1 s'affiche avant l'execution de la boucle qui, elle, n'affiche rien du tout, puisqu'elle ne 
fait qu'evaluer quatre fois de suite la liste de «riens» [() ; ()] , resultat de revaluation 
du deuxieme argument de repete. D'ailleurs, le type de repete aurait pu nous mettre 
la puce a Foreille : int -> 'a -> unit met bien en evidence que repete n'utilise pas 
vraiment son argument 1, la liste des ordres, puisque cet argument n'est finalement 
soumis a aucune contrainte, pas meme celle d'etre une liste. Vous aurez aussi remarque 
que le caractere * s'est imprime avant l'entier 1 : les elements d'une liste sont evalues 
dans un ordre non specifie par le langage. Dans le cas present, le compilateur a choisi 
l'ordre droite-gauche, ce qui ne convient pas du tout. II va sans dire que vos programmes 
ne doivent pas reposer sur l'ordre devaluation que choisit aujourd'hui le compilateur de 
votre machine : la prochaine version du compilateur pourrait bien en choisir un autre. 
II ne faut done pas faire d'effets pendant la construction d'une donnee. 

Cette solution naive ne marche done pas du tout. Pour obtenir l'effet desire, il nous 
faudrait retarder revaluation de la liste d'ordres, par exemple en passant une fonction 
en argument, au lieu d'une liste : 

# let repete n liste_d' ordres = 

for i = 1 to n do liste_d' ordres () done;; 
repete : int -> (unit -> 'a) -> unit = <fun> 

# repete 4 (function () -> print_int 1; print_char '*');; 
1*1*1*1*- : unit = () 

Le resultat voulu est atteint, mais l'utilisation de repete devient extremement lourde 
- tres «informatique», disons. 

Conclusion : pour depasser ce probleme, il faut prendre du recul, e'est-a-dire ma- 
nipuler les ordres graphiques non plus comme des fonctions de Caml, mais comme des 
donnees. Nous pourrons ainsi en maitriser completement revaluation. Nous defmirons 
done le type ordre des ordres graphiques et une fonction execute_ordre qui les 
executera. La fonction repete prendra alors en argument une liste de valeurs du type 
ordre, qu'elle pourra executer autant de fois que necessaire en utilisant la fonction 
execute_ordre. 

Nous resolvons de la meme maniere le probleme des nombres en definissant un type 
nombre qui regroupe des valeurs flottantes et entieres. 

# type nombre = 

I Entier of int 
I Flottant of float;; 
Le type nombre est def ini . 

Les operations de base du crayon n'acceptant que des arguments flottants, il nous faut 
une fonction traduisant les nombres (valeurs du type nombre) en valeurs du type float. 

# let flottant = function 

I Entier i -> float_of_int i 
I Flottant f -> f ; ; 
flottant : nombre -> float = <fun> 
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9.3 L'evaluation des ordres du langage graphique 

Nous defmissons maintenant le type des ordres graphiques : 



Constructeur 


Ordre graphique 


Constructeur 


Ordre graphique 




represente 




represente 


Av 


avance 


Re 


recule 


Td 


tourne a droite 


Tg 


tourne a gauche 


Lc 


leve le crayon 


Be 


baisse le crayon 


Ve 


vide l'ecran 


Rep 


repetition d'une 








liste d'ordres 



# type ordre = 
Av of nombre I Re of nombre 
Td of nombre I Tg of nombre 
Lc I Be 
Ve 

Rep of int * ordre list;; 
Le type ordre est defini . 

La fonction devaluation execute les ordres graphiques en utilisant les fonctions 
graphiques du crayon. La seule subtilite, pour l'ordre Rep, consiste a iterer revaluation 
sur la liste des ordres a l'aide de la fonctionnelle do_list. 

# let rec execute_ordre = function 
Av n -> avance (flottant n) 
Re n -> avance (-. (flottant n) ) 
Tg a -> tourne (flottant a) 
Td a -> tourne (-. (flottant a)) 
Lc -> fixe_crayon true 
Be -> fixe_crayon false 
Ve -> vide_ecran () 

Rep (n, 1) -> for i = 1 to n do do_list execute_ordre 1 done;; 
execute_ordre : ordre -> unit = <fun> 

Si nous considerons qu'un programme du langage graphique n'est rien d'autre qu'une 
liste d'ordres, alors la fonction qui execute les programmes n'est qu'une banale iteration 
de la fonction execute_ordre sur tous les ordres qui composent le programme. 

# let execute_programme 1 = do_list execute_ordre 1;; 
execute_programme : ordre list -> unit = <fun> 

Nous pouvons maintenant ecrire : 

# let carre c = Rep (4, [Av c; Td (Entier 90)]);; 
carre : nombre -> ordre = <fun> 

# execute_programme 

[Ve; carre (Entier 100); carre (Entier 75); 
carre (Entier 50) ; carre (Entier 25) ; 
carre (Flottant 12.5); carre (Flottant 6.25); 
carre (Flottant 3.125)];; 
- : unit = () 



Syntaxe et semantique 

9.4 Syntaxe et semantique 
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Nous avons pu implementer repete et tous les nouveaux ordres graphiques, ainsi 
que des nombres comportant a la fois des entiers et des flottants, mais il semble que nous 
ayons vraiment perdu en lisibilite par rapport a la version originale ! Alors, echec ? Non, 
car il faut encore apprendre a dissocier l'entree des donnees de leur evaluation. Nous 
avons reussi a ecrire un programme qui realise notre plan initial en ce qui concerne la 
semantique : nous avons la fonction repete desiree et le comportement correct pour les 
nombres. Mais nous avons echoue en ce qui concerne la syntaxe, c'est-a-dire l'ergonomie 
de l'ecriture des ordres graphiques. En effet, en definissant un type de donnees Caml 
des ordres graphiques, nous ne nous sommes pas degages de la syntaxe des programmes 
Caml. Ce que nous desirons maintenant, c'est ecrire comme bon nous semble les ordres 
graphiques et que cette ecriture, agreable pour nous, engendre une valeur Caml de type 
ordre. Par exemple, nous souhaitons ecrire repete 3 [avance 30 droite 90] , mais 
evaluer la valeur Caml Rep (3, [Av (Entier 30); Td (Entier 90)]). 



Nous allons done ecrire un programme qui realise automatiquement cette trans- 
formation. A partir d'une chaine de caracteres en entree, notre programme l'analysera 
pour produire en sortie un ordre graphique. Les programmes specialises dans ce genre de 
transformations s'appellent des analyseurs syntaxiques. La maniere d'ecrire les chaines 
d'entree legales est la syntaxe concrete, tandis que la valeur produite par Panalyseur 
syntaxique est la syntaxe abstraite. Par exemple, la syntaxe concrete avance 30 a pour 
syntaxe abstraite Av (Entier 30). La syntaxe abstraite de notre langage graphique 
est done decrite par le type Caml ordre. Intuitivement, la syntaxe abstraite donne la 
signification de la phrase analysee d'une maniere synthetique et independante des vari- 
ations possibles de la syntaxe concrete. Par exemple, nous tolererons les abreviations 
d'ordres graphiques, comme av au lieu de avance. L'expressions av 30 aura done la 
meme syntaxe abstraite que avance 30, soit Av (Entier 30). Ainsi, nos fonctions 
d'execution des ordres graphiques n'auront meme pas a savoir qu'il existe deux moyens 
de dire « avance », puisque leur argument sera exactement le meme dans les deux cas. 
(C'est un exemple tres simple de normalisation des donnees avant traitement.) 



Nous resumons syntaxe concrete, syntaxe abstraite et semantique des ordres 
graphiques dans le tableau suivant. 
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Syntaxe concrete 
Langage graphique 
Monde du crayon 


Syntaxe abstraite 
Langage Caml 
Monde Caml 


Semantique (signification) 
Dessin a l'ecran ou modifi- 
cation de l'etat du crayon 


avance 30.0 
av 30.0 


Av (Flottant 30.0) 
Av (Flottant 30.0) 


avance 30.0 
avance 30.0 


recule 10.0 
re 10 


Re (Flottant 10.0) 
Re (Entier 10) 


avance (-. 10.0) 
avance (-. 10.0) 


gauche 10 
tg 10 


Tg (Entier 10) 
Tg (Entier 10) 


tourne 10.0 
tourne 10.0 


droite 10 
td 10 


Td (Entier 10) 
Td (Entier 10) 


tourne (-. 10.0) 
tourne (-. 10.0) 


leve_crayon 
lc 

baisse_crayon 
be 


Lc 
Lc 
Be 
Be 


fixe_crayon true 
fixe_crayon true 
fixe_crayon false 
fixe_crayon false 


vide_ecran 
ve 


Ve 
Ve 


vide_ecran () 
vide_ecran () 



Pour la repetition des ordres, nous avons besoin des suites d'ordres separes par des 
blancs et places entre crochets [ et ] , comme pour les listes de Caml. 



Syntaxe concrete 


Syntaxe abstraite 


Semantique (signification) 


Ordres entre crochets 


Liste d'ordres 


Execution des ordres 
de la liste 


[av 30 td 90] 


[Av (Entier 30) ; 
Td(Entier 90)] 


Iteration avec do_list de 
la fonction execute_ordre 


Repetition d'ordres 


Ordre Rep 


Une boucle « for » de Caml 


repete 3 
[av 30 td 90] 


Rep (3, 

[Av (Entier 30) ; 
Td(Entier 90)]) 


Une boucle « for » qui 
execute trois fois la 
liste des ordres 


rep 3 [av 30 td 90] 


Rep (3, 

[Av (Entier 30) ; 
Td(Entier 90)]) 


Une boucle « for » qui 
execute trois fois la 
liste des ordres 



9.5 Notions d'analyses syntaxique et lexicale 

L'analyse syntaxique est un probleme difficile. Elle correspond a l'analyse grammat- 
icale de la langue franchise, que vous devez deja avoir appris a redouter. Cependant, 
lorsqu'un etre humain analyse une phrase frangaise, une etape extremement simple et 
intuitive est passee sous silence, tellement elle va de soi : la separation de la phrase 
en mots ! C'est cependant une phase non triviale en informatique : l'analyse lexicale. 
Lorsque Panalyseur lexical a reconnu les mots de la phrase (qu'on appelle aussi lexemes 
ou unites lexicales), Panalyseur syntaxique regroupe ces mots en phrases, selon les regies 
de la grammaire (la syntaxe concrete) du langage a reconnaitre. 

Prenons notre exemple favori : avance 30. L'analyseur lexical commence par re- 
connaitre que la phrase est formee de deux mots, « avance » et « 30 ». Le lexeme « 30 » 
est un entier car c'est une suite ininterrompue de chiffres. Notez que l'analyseur lexical 
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ne se laissera pas demonter par une entree un peu differente comme avance 30 (deux 
espaces entre avance et 30), ou meme 

avance 
30 

qui separe les deux mots par un saut de ligne et deux espaces. Le travail de l'analyseur 
syntaxique sera enormement simplifie par cette normalisation de Pentree faite par la 
phase d'analyse lexicale. Dans notre cas, l'analyseur syntaxique examinera les regies 
de la grammaire pour essayer de former une phrase avec les deux mots fournis par 
l'analyseur lexical. L'une de ces regies est justement 

[< 'Mot "avance"; nombre n >] -> Av n 

qui signifie : si Ton rencontre le mot ( ' Mot) avance, suivi ( ; ) d'un nombre n (nombre n) , 
alors c'est une phrase legale (->), dont la syntaxe abstraite est Av n. L'analyseur syn- 
taxique nous renverra done automatiquement la valeur Caml Av n, que nous ne voulions 
justement pas avoir besoin d'ecrire, a partir du format d'entree qui nous convient. 

Dans la section suivante, nous allons voir en details les analyseurs syntaxique et 
lexical du langage graphique. 

9.6 Analyse lexicale et syntaxique 
Les flux 

Pour programmer 1' analyse lexicale et 1' analyse syntaxique du langage, nous al- 
lons utiliser une structure de donnees Caml que nous n'avons pas encore vue : les flux 
(streams en anglais). Tout comme les listes, les flux sont des suites de valeurs du meme 
type. Le type d'un flux est t stream, ou t est le type des elements du flux. Ainsi, un 
flux d'entiers a le type int stream, de la meme maniere qu'une liste d'entiers a le type 
int list. Nous programmerons l'analyseur lexical comme une fonction qui prend un 
flux de caracteres en entree (type char stream) et produit un flux de lexemes en sortie 
(type lexeme stream). Nos lexemes comprennent des entiers, des flottants, des mots 
simples (suites de caracteres commengant par une lettre) et des symboles, e'est-a-dire 
des caracteres qui ne sont ni chiffres, ni lettres (par exemple le point « . »). Les lexemes 
sont done decrits par le type concret suivant : 

# type lexeme = 

I Mot of string 

I Symbole of char 

I Constante_entiere of int 

I Constante_f lottante of float;; 
Le type lexeme est defini. 

De meme, l'analyseur syntaxique se presentera sous la forme d'une fonction qui prend 
un flux de lexemes en entree (type lexeme stream) et produit un arbre de syntaxe (type 
ordre) en sortie. En composant les deux, nous obtiendrons une fonction qui transforme 
un flux de caracteres (syntaxe concrete) en un arbre (syntaxe abstraite). 

Nous produirons le flux de caracteres initial a partir d'une chaine de caracteres, 
grace a la fonction predefinie stream_of _string, qui transforme une chaine en le flux 
des caracteres qui la composent : 
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# let f lux_car = stream_of _string "Vive Caml ! " ; ; 
flux_car : char stream = <abstr> 

Une autre maniere de construire des flux est d'enumerer leurs elements a l'interieur de 
« crochets pointus » [< . . . >] . 

# let flux_ent = [< '2; '3; '5; '7 >] ; ; 
flux_ent : int stream = <abstr> 

Nous verrons plus tard d'autres manieres de construire des flux. Pour l'instant, notons 
simplement que chaque element du flux est introduit par le caractere ' (apostrophe) et 
que le systeme interactif ne sait pas imprimer le contenu des flux. 

Pourquoi faire appel a des flux, au lieu d'utiliser des listes ? Les flux different des 
listes sur deux points importants, qui rendent les flux mieux adaptes aux problemes 
d'analyse lexico-syntaxique. Premiere difference : Faeces dans un flux est destructif. 
Cela signifie que lorsqu'on consulte le premier element d'un flux, cet element est aussitot 
retire du flux et remplace par Pelement suivant. On le voit bien a l'aide de la fonction 
predefinie stream_next, qui renvoie le premier element d'un flux: 

# stream_next flux_car; ; 

- : char = 'V 

# stream_next flux_car; ; 

- : char = ' i ' 

Ce comportement de lecture destructrice est bien adapte a l'analyse lexico-syntaxique : 
en general, les analyseurs lisent une seule fois leur entree, sans jamais revenir en arriere ; 
il ne sert done a rien de conserver les elements de l'entree une fois qu'ils ont ete lus. 

La deuxieme particularite des flux est que les elements contenus dans un flux ne 
sont pas evalues en bloc quand le flux est cree, mais petit a petit, au fur et a mesure 
qu'on y accede. En particulier, lorsqu'on construit le flux des caracteres provenant d'un 
fichier, ce dernier n'est pas lu tout entier en memoire : le flux ne contient en memoire 
que le caractere courant et va chercher le prochain caractere sur le disque lorsqu'on en a 
besoin. Ce comportement est economique en memoire, en particulier quand le fichier est 
gros. En termes savants, ce procede s'appelle evaluation paresseuse, par analogie avec 
la strategie bien connue consistant a remettre a demain ce qu'il n'est pas absolument 
necessaire de faire aujourd'hui. 

Analyse lexicale 

L'analyse lexicale consiste a transformer un flux de caracteres en le flux des lexemes 
correspondants, avons-nous dit. Nous allons nous fixer un but plus modeste : construire 
une fonction lire_lexeme qui prend un flux de caracteres en argument, reconnait le 
premier lexeme au debut de ce flux et renvoie l'objet de type lexeme qui le decrit. 
Comme la lecture sur les flux est destructrice, lire_lexeme aura retire du flux les 
caracteres du lexeme ; il suffira done de rappeler lire_lexeme sur le meme flux pour 
lire le lexeme suivant. 

La maniere la plus pratique de lire un flux n'est pas d'appeler stream_next, mais 
de faire du filtrage sur les premiers elements du flux. Voici par exemple une fonction 
qui supprime tous les caracteres blancs (espaces, tabulations et retours chariot) en tete 
d'un flux. 
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# let rec saute_blancs flux = 

match flux with 

| [<»''>]-> saute_blancs flux (* 1 ' est 1' espace *) 
I [< ' '\t' >] -> saute_blancs flux (* '\t' est la tabulation *) 
I [< ' '\n' >] -> saute_blancs flux (* '\n' est la fin de ligne *) 
![<>]->();; 
saute_blancs : char stream -> unit = <fun> 

Comme les expressions de flux, les motifs sur les flux sont notes entre crochets pointus 
[< . . . >] . lis flltrent le debut du flux et non pas le flux tout entier. Ainsi, le motif [< 
>] nitre n'importe quel flux et non pas uniquement les flux vides comme on pourrait le 
croire. De meme, le motif [< 'm >] , ou m est un motif quelconque, flltre tous les flux 
dont le premier element est filtre par to, meme si le flux contient plus d'un element. 

La definition de saute_blancs se lit done : «si le premier caractere de flux est un 
espace (motif ' ' ), alors se rappeler recursivement sur flux ; faire de meme si le premier 
caractere de flux est le caractere de tabulation (motif ' \t ' ) ou le caractere fin de ligne 
(motif ' \n' ) ; dans tous les autres cas, renvoyer () . » On pourrait craindre que les appels 
recursifs a saute_blancs ne terminent pas, puisqu'on se rappelle sur le meme argument 
(flux) que celui qu'on a recu. Ce n'est pas vrai, car le flux a ete physiquement modifie 
entre-temps : des qu'un des trois premiers motifs s'applique, le premier element du flux 
est enleve de ce dernier. L'appel recursif de saute_blancs s'effectue done sur le reste 
du flux, comme desire. En revanche, lorsque les trois premiers motifs ne s'appliquent 
pas (parce que le premier caractere du flux n'est pas un blanc), le premier caractere du 
flux n'est pas supprime : le dernier motif etant vide, il ne consomme aucun element du 
flux. 

Incidemment, une maniere plus compacte d'ecrire la fonction saute_blancs est de 
regrouper les trois premiers cas, comme ceci : 

# let rec saute_blancs flux = 

match flux with 

I [< ' (' ' I '\t< I <\n') >] -> saute_blancs flux 
I [< >] -> 0 ; ; 
saute_blancs : char stream -> unit = <fun> 

La barre verticale I dans les motifs signifie « ou ». Le motif ( ' ' I ' \t ' I ' \n ' ) se lit 
done comme «un espace, une tabulation, ou un caractere de fin de ligne ». Poursuivons 
dans la meme veine par la fonction qui lit des entiers. 

# let rec lire_entier accumulateur flux = 

match flux with 
I [< 'CO' . . '9' as c) >] -> 

lire_entier (10 * accumulateur + int_of_char c - 48) flux 
I [< >] -> accumulateur; ; 
lire_ entier : int -> char stream -> int = <fun> 

Le motif ' 0 ' . . ' 9 ' filtre tous les caracteres entre 0 et 9 dans le jeu de caracteres ASCII, 
e'est-a-dire tous les chiffres. C'est une abreviation pour C 0 C I f l c I r 2* I r 3 c I '4* I I 
c 6 e I *7 e I C 8 C I e 9*. Que dit la fonction lire_entier ? « Si le premier caractere de flux 
est un chiffre, alors se rappeler recursivement pour lire la suite du nombre entier, sinon 
s'arreter et renvoyer l'entier lu jusqu'ici. » Le parametre accumulateur est la valeur 
entiere du nombre que representent les chiffres lus jusqu'ici. Les chiffres ont les codes 48 
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a 57 en ASCII ; done, int_of _char c - 48 est l'entier entre zero et neuf qui represente 
le chiffre c. L'appel recursif sur 10 * accumulateur + int_of _char c - 48 revient 
bien a introduire le chiffre c a droite du nombre accumulateur. Exemple d'execution : 

# let flux_car = streEim_of _string "123/456";; 
flux_car : char stream = <abstr> 

# lire_entier 0 f lux_car; ; 

- : int = 123 

# stream_next flux_car; ; 

- : char = '/' 

# lire_entier 900 flux_car; ; 

- : int = 900456 

Pour lire les nombres flottants, nous avons besoin d'une fonction similaire a 
lire_entier, mais lisant les chiffres a droite de la virgule et non plus a gauche. 

# let rec lire_decimales accumulateur echelle flux = 

match flux with 
I [< ' ('0' . . '9' as c) >] -> 
lire_decimales 
(accumulateur +. 

f loat_of _int (int_of _char c - 48) *. echelle) 
(echelle /. 10.0) flux 
I [< >] -> accumulateur; ; 
lire_decimales : float -> float -> char stream -> float = <fun> 

Un exemple devrait mieux nous faire comprendre qu'un long discours : 

# lire_decimales 123.4 0.01 (stream_of _string "56789");; 

- : float = 123.456789 

Derniere etape avant la lecture des lexemes : la lecture d'un mot. Precisons qu'un mot, 
ici, est une suite de lettres majuscules ou minuscules (de A a Z et de a a z, plus quelques 
lettres accentuees). 

# let tampon = make_string 16 
tampon : string = " " 

# let rec lire_mot position flux = 

match flux with 

I [< >(<A'..<Z< I 'a'..'z' I <e< I 'e' I <_< as c) >] -> 

if position < string_length tampon 
then tampon. [position] <- c; 

lire_mot (position + 1) flux 
I [< >] -> 

sub_string tampon 0 (min position (string_length tampon));; 
lire_mot : int -> char stream -> string = <fun> 

La chaine tampon sert a accumuler les caracteres du mot en cours de lecture. Le 
parametre position de lire_mot est le numero du caractere de tampon ou il faut 
stocker le prochain caractere du mot. (On rappelle que la construction s. [n] <- c rem- 
place le n ieme caractere de la chaine s par le caractere c.) Paraphrasons lire_mot. «Si 
le premier caractere de flux est une lettre, alors le stocker dans tampon a l'endroit 
designe par position, pourvu qu'il reste de la place libre dans tampon, et se rappeler 
recursivement pour lire la suite. Sinon, extraire de tampon le mot lu jusqu'ici et le 
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renvoyer. » (L'appel sub_string s 0 n renvoie une chaine constitute des n premiers 
caracteres de s.) 

La fonction lire_lexeme tant attendue se contente de regarder le premier caractere 
non blanc du flux et selon que c'est une lettre, un chiffre ou autre chose, d'appeler une 
des fonctions de lecture precedemment definies. 

# let lire_lexeme flux = 

saute_blancs flux; 
match flux with 

I [< >(<A [ ..<Z< I <a'..'z< I <e< I 'e' as c) >] -> 

tampon. [0] <- c; 

Mot (lire_mot 1 flux) 
I [< ' ('0' . . '9' as c) >] -> 

let n = lire_entier (int_of_char c - 48) flux in 

begin match flux with 

I [<".<>]-> 

Const ante_f lott ante 

(lire_decimales (f loat_of _int n) 0.1 flux) 

I [< >] -> Constante_entiere n 

end 

I [< >c >] -> Symbole c; ; 
lire_lexeme : char stream -> lexeme = <fun> 

En guise de test : 

# let flux_car = stream_of _string "123bonjour ! 45.67";; 
flux_car : char stream = <abstr> 

# lire_lexeme flux_car; ; 

- : lexeme = Constante_entiere 123 

# lire_lexeme flux_car; ; 

- : lexeme = Mot "bonjour" 

# lire_lexeme flux_car; ; 

- : lexeme = Symbole ' ! ' 

# lire_lexeme flux_car; ; 

- : lexeme = Constante_flottante 45.67 

Pour finir, il reste a construire le flux des lexemes lus. 

# let rec analyseur_lexical flux = 

match flux with 

I [< lire_lexeme 1 >] -> [< '1; analyseur_lexical flux >] 
I [< >] -> [< >] ; ; 
analyseur_lexical : char stream -> lexeme stream = <fun> 

Cette fonction utilise deux nouvelles operations sur les flux. Premierement, l'ajout d'un 
element x en tete d'un flux / se note [< 'x; f >] , sans apostrophe devant le /. De 
meme, la concatenation de deux flux fi et /2 se note [< f\ ; /2>] , sans apostrophes du 
tout. Le point-virgule a l'interieur des crochets pointus peut se lire comme Poperateur 
de concatenation de flux ; l'apostrophe, comme Poperateur qui prend une valeur x et 
renvoie le flux a un seul element x. 

Autre operation nouvelle sur les flux : on peut, lors d'un filtrage sur un flux, appeler 
une fonction d'analyse depuis l'interieur du motif. Ceci se note [< lire_lexeme 1 >] , 
sans apostrophe avant lire_lexeme, et signifie : «appliquer la fonction lire_lexeme 
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au flux en cours de filtrage (ici, flux) ; si cette fonction reussit, appeler 1 son resultat 
et continuer le filtrage; si cette fonction echoue, essayer le prochain cas du filtrage ». 

La fonction lire_lexeme echoue quand aucun des cas de son filtrage ne s'applique, 
c'est-a-dire quand on lui passe un flux vide. Si flux est vide, l'appel a lire_lexeme 
echoue done et on passe au deuxieme cas de analyseur_lexical qui renvoie le flux 
vide. Si flux n'est pas vide, l'appel a lire_lexeme reussit et extrait de flux son 
premier lexeme ; la representation de ce lexeme transite par la variable 1 et est ajoutee 
en tete du flux de lexemes obtenus par appel recursif de analyseur_lexical sur le 
reste du flux. 

Vous n'etes toujours pas convaincu? Essayons done. 

# let f lux_lexemes = 

analyseur_lexical (stream_of _string "123bonjour ! 45.67");; 
flux_lexemes : lexeme stream = <abstr> 

# stream_next f lux_lexemes ; ; 

- : lexeme = Constante_entiere 123 

# stream_next f lux_lexemes ; ; 

- : lexeme = Mot "bonjour" 

# stream_next f lux_lexemes ; ; 

- : lexeme = Symbole ' ! ' 

# stream_next f lux_lexemes ; ; 

- : lexeme = Constante_flottante 45.67 

Analyse syntaxique 

Puisque Panalyseur lexical renvoie un flux de lexemes, Panalyseur syntaxique est 
une fonction qui prend en argument un flux de lexemes et le transforme en une valeur 
plus structures. 

Nous commencerons par une partie de Panalyseur syntaxique qui se contente de 
lire un nombre, soit entier soit flottant, et d'en faire une valeur de type nombre. Cette 
fonction va done envisager deux cas : si le flux de lexemes commence par un lexeme 
Constante_entiere i alors elle fabrique le nombre Entier i ; si le flux de lexemes 
commence par un lexeme Constante_f lottante f alors la fonction renvoie le nom- 
bre Flottant f . Tous les autres lexemes produiront une erreur, se traduisant par le 
declenchement de Pexception predefinie Parse_f ailure. 

# let nombre = function 

I [< ' Constante_entiere i >] -> Entier i 
I [< 'Constante_f lottante f >] -> Flottant f;; 
nombre : lexeme stream -> nombre = <fun> 

Par exemple : 

# let f lux_lexemes = 

analyseur_lexical (stream_of _string "123 1.05 fini");; 
flux_lexemes : lexeme stream = <abstr> 

# nombre f lux_lexemes ; ; 

- : nombre = Entier 123 

# nombre f lux_lexemes ; ; 

- : nombre = Flottant 1 . 05 
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# nombre f lux_lexemes ; ; 

Exception non rattrapee: Parse_f ailure 

La fonction qui analyse les ordres n'est guere plus compliquee. Pour les ordres 
sans argument, elle se contente de chercher le mot correspondant comme premier 
lexeme du flux. Ainsi, pour analyser l'ordre baisse_crayon, on aura la clause [< 
'Mot "baisse_crayon" >] -> Be. 

Pour les ordres avec argument numerique, on commence par detecter l'ordre, 
puis on appelle Panalyseur des nombres, la fonction nombre precedente. Cet 
appel a lieu encore une fois dans la partie nitre de la clause. Ainsi, la clause 
[< 'Mot "avance" ; nombre n >] -> Av n se paraphrase en: si le premier lexeme du 
flux est le mot avance et que la fonction nombre analyse avec succes le lexeme suivant 
en renvoyant la valeur n, alors cette clause est selectionnee et l'on renvoie l'ordre Av n. 

Pour l'ordre repete, on cherche l'entier indiquant le nombre de repetitions, puis 
on cherche une liste d'ordres en appelant l'analyseur specialise liste_d' ordres qui 
reconnait une succession d'ordres entoures de crochets, conformement a la syntaxe 
concrete que nous avons choisie. 

L'analyseur liste_d' ordres attend done un caractere crochet ouvrant, Symbole 
' I' , puis appelle lui aussi un analyseur specialise dans la reconnaissance des successions 
d'ordres; enfin, liste_d' ordres verifie que la liste se termine bien par un crochet 
fermant, Symbole ']'. 

# let rec ordre = function 

I [< 'Mot "baisse_crayon" >] -> Be 

I [< 'Mot "be" >] -> Be 

I [< 'Mot "leve_crayon" >] -> Lc 

I [< 'Mot "lc" >] -> Lc 

I [< 'Mot "vide_ecran" >] -> Ve 

I [< 'Mot "ve" >] -> Ve 

I [< 'Mot "avance"; nombre n >] -> Av n 

I [< 'Mot "av"; nombre n >] -> Av n 

I [< 'Mot "recule"; nombre n >] -> Re n 

I [< 'Mot "re"; nombre n >] -> Re n 

I [< 'Mot "droite"; nombre n >] -> Td n 

I [< 'Mot "td"; nombre n >] -> Td n 

I [< 'Mot "gauche"; nombre n >] -> Tg n 

I [< 'Mot "tg"; nombre n >] -> Tg n 

I [< 'Mot "repete"; 'Constante_entiere n; 
liste_d' ordres 1 >] -> Rep (n,l) 

I [< 'Mot "rep"; 'Constante_entiere n; 
liste_d' ordres 1 >] -> Rep (n,l) 
and liste_d' ordres = function 

I [< 'Symbole '['; suite_d' ordres 1; 'Symbole '] ' >] -> 1 
and suite_d' ordres = function 

I [< ordre ord; suite_d' ordres l_ord >] -> ord::l_ord 

I [< >] -> □ ; ; 
ordre : lexeme stream -> ordre = <fun> 
liste_d' ordres : lexeme stream -> ordre list = <fun> 
suite_d' ordres : lexeme stream -> ordre list = <fun> 

La fonction suite_d' ordres est la plus complexe. Elle comprend deux nitres : 
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• [< ordre ord; suite_d > ordres l_ord >] : on s'attend a trouver un ordre ord, 
eventuellement suivi d'autres ordres, que la fonction suite_d' ordres placerait 
dans une liste l_ord. 

• [< >] : dans tous les autres cas, il n'y a plus d'ordres a lire et la fonction ren- 
voie la liste vide. C'est evidemment ce cas qui arrete la recursion de la fonction. 
Remarquez que cette syntaxe autorise la repetition d'une liste d'ordres vide. 

Finalement, un programme est une suite d'ordres terminee par un point. 

# let analyse_programme = function 

I [< suite_d' ordres 1; 'Symbole '.' >] -> 1;; 
analyse_programme : lexeme stream -> ordre list = <fun> 

Nous definissons maintenant une fonction de lecture de programmes du langage 
graphique, qui lit un programme dans une chaine de caracteres et rend la liste des 
ordres correspondants. 

# let lire_code chaine = 

analyse_programme 

(analyseur_lexical (stream_of _string chaine));; 
lire_code : string -> ordre list = <fun> 

# lire_code "repete 4 [avance 100 droite 90].";; 

- : ordre list = [Rep (4, [Av (Entier 100); Td (Entier 90)])] 

On combine facilement la lecture et l'execution, obtenant enfin la fonction d'execution 
d'une chaine de caracteres recherchee. 

# let logo chaine = 

execute_programme (lire_code chaine) ; ; 
logo : string -> unit = <fun> 

En guise de test, imbriquons deux ordres repete pour faire se deplacer 
un hexagone. 

# logo "ve repete 6 

[td 60 repete 6 [av 15 tg 60] av 15] . " ; ; 

- : unit = () 

9.7 Ajout des procedures 

Dans la section precedente, nous sommes parvenus a nous liberer de la syntaxe de 
Caml. Malheureusement, nous avons ainsi perdu la possibilite de definir des procedures, 
comme nous le faisions par exemple pour dessiner les ailes d'un moulin en utilisant la 
procedure carre. Nous allons done etendre notre langage graphique avec une construc- 
tion qui permette de definir des procedures. 

La syntaxe abstraite des expressions du langage 

Avec l'introduction des procedures et de leurs parametres, nous sommes obliges 
d'introduire la notion d'expression dans le langage. En effet, l'argument d'un ordre, 
avance par exemple, ne se reduit plus a une constante : ce peut etre maintenant 
l'argument d'une procedure. Par exemple, pour definir la procedure qui dessine un 




Ajout des procedures 



169 



carre de cote c nous ecrirons une repetition ou l'ordre avance a pour argument la 
variable c : 

pour carre : c 

repete 4 [avance :c td 90] . 

La syntaxe concrete que nous employons s'inspire de celle du langage Logo : les noms de 
variables sont precedes d'un signe «deux points », comme dans « :x», et les definitions 
de procedures sont introduites par le mot pour. 

Tous les ordres qui avaient precedemment un argument numerique auront main- 
tenant une expression en argument. Nous etendons un peu ce langage des expressions 
pour autoriser les quatre operations elementaires. On trouvera done dans le type des ex- 
pressions, outre les nombres et les variables represented par les constructeurs Const ante 
et Variable, les quatre constructeurs Somme, Produit, Difference et Quotient. Ces 
constructeurs prennent en argument une paire d'expressions qui represente les deux 
operandes. 

# type expression = 

I Constante of nombre 

I Somme of expression * expression 

I Produit of expression * expression 

I Difference of expression * expression 

I Quotient of expression * expression 

I Variable of string; ; 
Le type expression est defini. 



L'evaluateur des expressions 

Nous devons evaluer nous-memes les operations sur les nombres. C'est tres simple : 
lorsque les deux nombres sont des entiers, il suffit d'appeler la primitive correspondante 
de Caml sur les entiers ; sinon, on transforme les deux nombres en flottants et Ton 
appelle la primitive correspondante, sur les flottants cette fois. 

# let ajoute_nombres = function 

I (Entier i, Entier j) -> Entier (i + j) 
I (nl, n2) -> Flottant (flottant nl +. flottant n2) 
and soustrais_nombres = function 

I (Entier i, Entier j) -> Entier (i - j) 
I (nl, n2) -> Flottant (flottant nl -. flottant n2) 
and multiplie_nombres = function 

I (Entier i, Entier j) -> Entier (i * j) 
I (nl, n2) -> Flottant (flottant nl *. flottant n2) 
and divise_nombres = function 

I (Entier i, Entier j) -> Entier (i / j) 
I (nl, n2) -> Flottant (flottant nl /. flottant n2) 
and compare_nombres = function 
I (Entier i, Entier j) -> i >= j 
I (nl, n2) -> (flottant nl >=. flottant n2) ; ; 
ajoute_nombres : nombre * nombre -> nombre = <fun> 
soustrais_nombres : nombre * nombre -> nombre = <fun> 
multiplie_nombres : nombre * nombre -> nombre = <fun> 
divise_nombres : nombre * nombre -> nombre = <fun> 
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compa.re_nom.bres : nombre * nombre -> bool = <fun> 

L'evaluateur des expressions lui-meme est un peu plus complexe. En effet, il a un ar- 
gument supplementaire env, qui sert a retrouver la valeur courante d'une variable. C'est 
ce qu'on nomme un environnement. L'environnement sert a enregistrer les liaisons des 
variables a leur valeur, calculee lors de leur definition. Les liaisons sont modelisees par 
des paires (nom de variable, valeur associee), tandis que l'environnement se represente 
comme une liste de telles liaisons. L'environnement a done la structure d'une liste 
d'association, structure de donnees que nous avons deja utilisee pour modeliser la base 
de donnees de Camelia au chapitre 7. On ajoute done une liaison a l'environnement en 
ajoutant une paire (nom, valeur) en tete de la liste qui represente l'environnement et 
l'on trouve la valeur associee a un nom de variable par une simple recherche a l'aide de 
la fonction assoc. (La fonction assoc est une fonction predefinie de recherche dans les 
listes d'associations, analogue a la fonction associe_de de la section 7.3.) 

# let rec valeur_expr env = function 
I Constante n -> n 
I Somme (el, e2) -> 

ajoute_nombres (valeur_expr env el, valeur_expr env e2) 
I Produit (el, e2) -> 

multiplie_nombres (valeur_expr env el, valeur_expr env e2) 
I Difference (el, e2) -> 

soustrais_nombres (valeur_expr env el, valeur_expr env e2) 
I Quotient (el, e2) -> 

divise_nombres (valeur_expr env el, valeur_expr env e2) 
I Variable s -> assoc s env; ; 
valeur_expr : (string * nombre) list -> expression -> nombre = <fun> 



Les ordres du langage 

Les ordres s'enrichissent de trois nouvelles constructions : l'ordre Stop qui arrete 
une procedure, l'ordre Execute qui execute une procedure en l'appliquant a la liste de 
ses arguments et enfin une construction conditionnelle, Si. L'ordre Si execute une liste 
d'ordres ou une autre, selon qu'une condition est remplie. Pour simplifier, la condition 
est reduite a la comparaison >= sur les nombres. 

Le nouveau type ordre comprend done les meme constructeurs de base que l'ancien, 
Av, Re, ... , Rep, et les trois nouveaux constructeurs Stop, Si et Execute. 

# type ordre = 

I Av of expression I Re of expression 
I Td of expression I Tg of expression 
I Lc I Be 
I Ve 

I Rep of expression * ordre list 
I Stop 

I Si of expression * expression * ordre list * ordre list 
I Execute of string * expression list;; 
Le type ordre est defini . 
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La definition des procedures et l'execution des ordres 

La construction pour permet de definir de nouvelles procedures. Lorsqu'une 
procedure est definie, son nom est enregistre avec son corps et la liste de ses arguments 
dans la liste d'association globale procedures_def inies. De meme que pour les vari- 
ables, on recherche done le corps et la liste d'arguments d'une procedure en cherchant 
sa valeur associee dans la liste des procedures deja definies. 

# type procedure = {parametres : string list; corps : ordre list};; 
Le type procedure est def ini . 

# let procedures_def inies = ref ( [] : (string * procedure) list);; 
procedures_def inies : (string * procedure) list ref = ref [] 

# let def init_procedure (nom, proc as liaison) = 

procedures_def inies := liaison : : !procedures_def inies 
and def inition_de nom_de_procedure = 

assoc nom_de_procedure !procedures_def inies; ; 
definit_procedure : string * procedure -> unit = <fun> 
definition_de : string -> procedure = <fun> 

L'execution des ordres 

Comme la fonction devaluation des expressions, la fonction d'execution des ordres 
doit gerer un environnement, puisqu'elle est chargee de lier les arguments des procedures 
lorsqu'on les appelle. L'execution des ordres simples ne change pas : on applique tou- 
jours les fonctions de base du crayon. La seule difference consiste a evaluer l'expression 
argument de l'ordre en appelant valeur_expr dans l'environnement courant. Par exem- 
ple, pour Av e, on appellera comme auparavant la fonction avance avec pour argument 
le flottant obtenu par revaluation de e, e'est-a-dire valeur_expr env e. L'ordre repete 
prend maintenant une expression en argument : cette expression est evaluee et retourne 
une valeur de type nombre. Cependant ce nombre n'est pas forcement un entier; dans 
le cas ou e'est une valeur flottante, deux options sont possibles : prendre la decision 
d'arrondir le nombre a l'entier le plus proche (repeter 3.1 fois signifie alors repeter 3 
fois) ; ou bien echouer, au pretexte qu'on ne peut pas repeter un nombre flottant de fois 
une liste d'ordres (repeter 3.1 fois n'a pas de sens). C'est cette derniere solution que 
nous adoptons. Nous definissons done une fonction de conversion d'un nombre en une 
valeur entiere qui echoue si son argument est flottant. 

# let valeur_entiere = function 

I Entier i -> i 

I Flottant f -> failwith "entier attendu" ; ; 
valeur_entiere : nombre -> int = <fun> 

Voyons maintenant le code de la fonction qui execute les ordres. Nous detaillerons 
ensuite le code qui correspond aux ordres nouveaux. 

# exception Fin_de_procedure ; ; 

L' excepti on Fin_de_procedure est definie. 

# let rec execute_ordre env = function 

I Av e -> avance (flottant (valeur_expr env e)) 

I Re e -> avance (-. (flottant (valeur_expr env e))) 

I Tg a -> tourne (flottant (valeur_expr env a)) 
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I Td a -> tourne (-. (flottant (valeur_expr env a))) 
I Lc -> fixe_crayon true 
I Be -> fixe_crayon false 
I Ve -> vide_ecran () 
I Rep (n, 1) -> 

for i = 1 to valeur_entiere (valeur_expr env n) 

do do_list (execute_ordre env) 1 done 
I Si (el, e2, alors, sinon) -> 

if compare_nombres (valeur_expr env el, valeur_expr env e2) 

then do_list (execute_ordre env) alors 

else do_list (execute_ordre env) sinon 
I Stop -> raise Fin_de_procedure 
I Execute (nom_de_procedure , args) -> 

let definition = def inition_de nom_de_procedure in 

let variables = def inition. parametres 

and corps = def inition. corps in 

let rec augmente_env = function 
I [] , [] -> env 

I variable :: vars , expr::exprs -> 

(variable, valeur_expr env expr) :: 

augmente_env (vars, exprs) 
I _ -> 

failwith ("mauvais nombre d'arguments pour " 
nom_de_procedure) in 
let env_pour_corps = augmente_env (variables, args) in 
try do_list (execute_ordre env_pour_corps) corps 
with Fin_de_procedure -> ();; 
execute_ordre : (string * nombre) list -> ordre -> unit = <fun> 

L'ordre Si est tres simple : si la comparaison des deux expressions renvoie vrai, on 
execute la partie alors et dans le cas contraire on execute la partie sinon. Remarquez 
que la fonction execute_ordre est appliquee partiellement a l'environnement courant : 
e'est la fonction ainsi obtenue qui est appliquee a tous les ordres de la liste choisie 
(do_list (execute_ordre env) alors). 

L'ordre Stop est execute en declenchant l'exception Fin_de_procedure qui inter- 
rompt done brutalement Pexecution de la liste d'ordres constituant le corps d'une 
procedure. Cette exception est evidemment surveillee par l'execution du corps de toute 
procedure ; si elle survient, elle est alors rattrapee et la procedure est considered comme 
terminee: e'est le try . . . with qui apparait dans la clause concernant Execute. 

L'evaluation d'un ordre Execute consiste d'abord a obtcnir la definition de la 
procedure, ses variables et son corps. Puis on calcule l'environnement dans lequel le 
corps de la procedure doit etre evalue ; e'est l'environnement env_pour_corps. II est 
obtenu en liant les parametres de la procedure aux valeurs des arguments avec lesquels 
la procedure a ete appelee. La fonction locale augmente_env parcourt done simul- 
tanement la liste des parametres de la procedure et la liste des arguments. Si ces listes 
sont vides (procedure sans parametre ou liste de parametres completement traitee), 
le nouvel environnement est l'environnement courant env. Sinon, il suffit de calculer 
la liaison du premier parametre de la procedure, variable, a la valeur du premier 
argument, l'expression expr. On ajoute done la paire (variable, valeur_expr env 
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expr) a la liste des autres liaisons qu'on obtient en appelant recursivement la fonction 
augment e_env sur le reste des parametres et le reste des valeurs des arguments, les 
expressions exprs. Evidemment, si la liste des parametres et la liste des expressions 
ne s'epuisent pas en meme temps, c'est qu'il y a une erreur sur le nombre d'arguments 
fournis lors de l'appel de la procedure ; on echoue alors avec un message d'erreur. II 
ne reste plus ensuite qu'a executer la liste des ordres du corps de la procedure dans 
ce nouvel environnement, en surveillant le declenchement de l'exception Stop. Remar- 
quez encore une fois l'application partielle de la fonction execute_ordre, non pas a 
l'environnement courant, mais a celui adequat a Pexecution du corps de la procedure: 
do_list (execute_ordre env_pour_corps) corps. 

L 'evaluation des programmes 

Les phrases de notre mini-Logo sont soit des definitions de procedures, soit des 
ordres. Un programme est une suite de phrases. 

# type phrase_logo = 

I Pour of string * procedure 
I Ordre of ordre ; ; 
Le type phrase_logo est def ini . 

# type programme_logo = Programme of phrase_logo list;; 
Le type programme_logo est def ini . 

On execute un ordre en appelant la fonction execute_ordre dans un environ- 
nement initialement vide, tandis qu'une definition se contente d'appeler la fonction 
def init_procedure. 

# let rec execute_phrase = function 

I Ordre ord -> execute_ordre [] ord 

I Pour (nom, proc as liaison) -> def init_procedure liaison 
and execute_programme = function 

I Programme phs -> do_list execute_phrase phs;; 
execute_piirase : phrase_logo -> unit = <fun> 
execute_programme : programme_logo -> unit = <fun> 

L'analyseur syntaxique 

L'analyseur syntaxique est tres semblable a celui de la section 9.6 ; il est seule- 
ment un peu plus long. Nous avons regroupe les clauses analogues, dues aux mots cles 
synonymes, a l'aide de nitres «ou», par exemple [< '(Mot "baisse_crayon" | Mot 
"be") >] -> Be. 

Remarquez aussi que les expressions « alors » et «sinon» de l'alternative si sont des 
listes d'ordres et que la condition est forcement la comparaison avec >= de deux expres- 
sions. Un petit detail encore : nous avons ajoute la possibility de taper directement des 
nombres negatifs dans la fonction nombre. En effet, si le nombre commence par un signe 
-, nous rendons en resultat son oppose en appelant la primitive Caml correspondant 
au type du nombre, qui est simplement determine par un filtrage explicite. 

# let rec analyse_programme = function 

I [< analyse_phrase ph; analyse_programme p >] -> ph. : : p 
I [< 'Symbole ' . 1 >] -> [] 
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I [< >] -> [] 



and analyse_phrase = function 

I [< 'Mot "pour"; 'Mot s; parametres variables; 
suite_d'ordres ordres; 'Symbole '.' >] -> 
Pour (s, {parametres = variables; corps = ordres}) 
I [< ordre ord >] -> Ordre ord 



and parametres = function 

I [< 'Symbole ':'; 'Mot s; parametres 1 >] -> s::l 
I [< >] -> □ 



and ordre = function 

I [< '(Mot "avance" I Mot "av"); expression e >] -> Av e 
I [< '(Mot "recule" I Mot "re"); expression e >] -> Re e 
I [< '(Mot "droite" I Mot "td"); expression e >] -> Td e 
I [< '(Mot "gauche" I Mot "tg"); expression e >] -> Tg e 
I [< '(Mot "baisse_crayon" I Mot "be") >] -> Be 
I [< '(Mot "leve_crayon" I Mot "lc") >] -> Lc 
I [< '(Mot "vide_ecran" I Mot "ve") >] -> Ve 
I [< 'Mot "stop" >] -> Stop 
I [< 'Mot "si"; 

expression el; 'Symbole '>'; 'Symbole '='; expression e2; 
liste_d' ordres alors; 

liste_d' ordres sinon >] -> Si (el, e2, alors, sinon) 
I [< '(Mot "repete" I Mot "rep"); 

expression e; liste_d' ordres 1 >] -> Rep (e,l) 
I [< 'Mot f; liste_d' expressions exprs >] -> Execute (f, exprs) 

and liste_d' ordres = function 

I [< 'Symbole '['; suite_d' ordres 1; 'Symbole '] ' >] -> 1 
and suite_d' ordres = function 

I [< ordre ord; suite_d' ordres 1 >] -> ord: :1 

I [< >] -> □ 



and nombre = function 

I [< ' Symbole 1 - ' ; nombre n >] -> 
begin match n with 
I Entier i -> Entier (-i) 
I Flottant f -> Flottant (-. f) 
end 

I [< ' Constante_entiere i >] -> Entier i 

I [< 'Constante_flottante f >] -> Flottant f 



and expression_simple = function 
I [< nombre n >] -> Constante n 
I [< 'Symbole ':'; 'Mot var >] -> Variable var 
I [< 'Symbole '('; expression e; 'Symbole ')' >] -> e 

and expression = function 

I [< expression_simple e; (reste_de_l' expression e) e' >] -> e' 
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and reste_de_l ' expression e = function 

I [< 'Symbole '+'; expression e2 >] -> Somme (e, e2) 
I [< 'Symbole '*'; expression e2 >] -> Produit (e, e2) 
I [< 'Symbole expression e2 >] -> Difference (e, e2) 

I [< 'Symbole '/'; expression e2 >] -> Quotient (e, e2) 
I [< >] -> e 

and liste_d' expressions = function 

I [< expression exp; liste_d' expressions 1 >] -> exp::l 
I [<>]->□; ; 

La fonction principale, logo, combine analyse lexicale, analyse syntaxique et evaluation 
pour executer un programme lu dans une chaine de caracteres. 

# let logo chaine = 

do_list execute_phrase 
(analyse_progr amine 

(analyseur_lexical (stream_of _string chaine)));; 
logo : string -> unit = <fun> 



Voici en guise d'exemple les definitions successives de deux 
procedures, suivies d'une suite d'ordres : 

# logo "pour carre : c 

repete 4 [av :c td 90] . 
pour multi_carre :c :n 

repete :n [carre :c td 10]. 
ve multi_carre 80 10 . " ; ; 

- : unit = () 

Remarquez que nous devons ecrire 10 . avec un blanc entre le zero et le point, car 
sinon Panalyseur lexical croirait avoir affaire a un nombre flottant. 

Un peu plus difficile maintenant : une procedure recursive spirale, qui s'arrete 
lorsqu'elle a ete appelee : n fois et qui fait avancer le crayon de la distance : d en tournant 
de Tangle :a a chacune de ses invocations. La procedure s'appelle recursivement avec 
une distance augmentee de l'argument : i, qui est done l'increment ajoute a la distance 
que parcourra le crayon a la prochaine etape. 

# logo "pour spirale :d :a :i :n 

si :n >= 0 

[av :d td :a spirale (:d+:i) :a :i (:n - 1)] 
[stop] . " ; ; 

- : unit = () 
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# logo "ve spirale # logo "ve spirale 

0 179.5 0.5 360 ."; ; 0 178 . 5 0 . 5 360 . " ; ; 

- : unit = () - : unit = () 




Cette fonction est etonnamment sensible a la valeur de ses parametres de depart. Les 
deux dessins ci-dessus correspondent a une variation d'un degre de l'angle, toutes choses 
restant egales par ailleurs. De meme, voyez la difference entre les deux dessins suivants, 
oil Tangle de depart n'a ete modifie que de 0.3 degres. 



# logo "ve spirale 

0 79.8 0.4 360 
- : unit = () 



# logo "ve spirale 

0 79.5 0.4 360 
- : unit = () 




Nous ecrivons maintenant une procedure analogue mais qui incremente Tangle de visee 
au lieu de la distance de deplacement. 

# logo "pour spirala :d :a :i :n 
si :n >= 0 

[av :d td :a spirala :d(:a+ :i) :i (:n-l)] 
[stop] . " ; ; 
- : unit = () 



On obtient encore une fois des figures tres diverses. 
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# logo "ve spirala # logo "ve spirala 

5 0 89.5 1440 .";; 4 0.5 181.5 1500 

- : unit =0 - : unit = () 




Au fait, spirale et spirala sont des procedures recursives. Mais qu'avons-nous 
fait pour que les procedures de notre mini-Logo puissent etre recursives ? Comment 
se fait-il que nous soyons capables de les executer ? Nous avons vu qu'en Caml cela 
n'allait pas de soi puisqu'il nous avait fallu pour cela utiliser le mot-cle rec. Examinez 
les fonctions devaluation des ordres et de definition des procedures : vous remarquerez 
qu'une procedure est toujours definie sans examen de son corps. Rien ne l'empeche 
done de faire reference a une autre procedure pas encore definie, en particulier elle peut 
faire reference a elle-meme. Lors de l'execution, il n'y a pas de probleme non plus : 
on va rechercher la definition de la procedure autant de fois que necessaire et cette 
recherche reussit toujours puisque la procedure est definie . . . Puisque la recursivite est 
automatique en mini-Logo vous devinez que, a la difference de Caml, mini-Logo n'obeit 
pas a la regie de portee statique. En effet lors de l'execution du corps d'une procedure, 
quand on rencontre un identificateur, on interroge l'environnement courant : on va done 
trouver la valeur actuellement liee au nom. Cette liaison a ete etablie au cours de 
l'execution du programme, elle n'est pas celle qu'on obtiendrait en examinant le texte 
du programme. Ce type de portee des identificateurs se nomme la portee dynamique. 
II est done legal en mini-Logo d'utiliser une procedure avant de l'avoir definie . . . 
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Oil Von apprend a diviser pour regner sur ses programmes. 



USQu'iCi, nous avons utilise Caml d'une maniere entierement interactive: 
l'utilisateur entre une phrase, le systeme l'execute, l'utilisateur entre une 
deuxieme phrase, et ainsi de suite. C'est tres pratique pour apprendre le langage 
et experimenter avec des fonctions, mais malcommode pour construire de veritables 
programmes. Dans ce chapitre, nous allons voir d'autres modes d'utilisation de Caml, 
qui evitent d'entrer sans cesse les memes definitions ; qui autorisent la constructions de 
programmes independants, utilisables sans connaissance prealable de Caml ; et enfin, 
qui procurent un moyen de structurer des gros programmes en modules. 



10.1 Chargement de fichiers 

Si vous avez eu la patience de taper un des gros exemples des chapitres precedents, 
vous vous etes certainement demande comment sauvegarder tout ce travail, arm de 
pouvoir reutiliser ulterieurement les fonctions que vous avez peniblement entrees. Mal- 
heureusement pour vous, c'est impossible dans le systeme Caml Light. En revanche, 
vous auriez pu ecrire les exemples sous un editeur de textes, enregistrer le texte des pro- 
grammes dans un fichier, puis charger ce fichier dans le systeme interactif. Caml Light 
fournit pour ce faire la fonction include : appliquee a un nom de fichier include se 
charge de lire les phrases Caml contenues dans le fichier et de les executer tout comme 
si vous les aviez tapees a la main. Par exemple, supposons qu'on ait mis dans le fichier 
facto, ml les lignes suivantes : 

let rec fact n = 

if n <= 1 then 1 else n * fact (n - 1) ; ; 
fact 10; ; 

On lance alors le systeme Caml Light, puis on entre : 

# include "facto .ml" ; ; 
fact : int -> int = <fim> 
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- : int = 3628800 

- : unit = () 

Comme on le voit sur les reponses du systeme, fact est definie, puis fact 10 evaluee, 
et le resultat est affiche. Notez que le nom de fichier argument de include doit 
imperativement etre mis entre guillemets "... " : c'est en fait une chaine de caracteres 
comme les autres. De plus, le nom du fichier doit se terminer par l'extension .ml. Si 
on donne a include un nom de fichier qui ne se termine pas par .ml, comme dans 
include "facto", le systeme ajoute .ml de lui-meme et charge done facto. ml. 

La methode la plus pratique pour construire interactivement des programmes Caml 
Light est done de faire tourner en meme temps un editeur de textes et le systeme Caml 
Light, dans deux fenetres differentes : on ecrit son code sous l'editeur, on l'enregistre, 
on passe a Caml Light, on charge le fichier avec include, on lit les messages d'erreur, 
on repasse sous l'editeur, on corrige les erreurs, on repasse a Caml Light, on recharge, 
etc. 

10.2 Programmes independants 

Supposons que Ton veuille utiliser regulierement le systeme Logo presente dans les 
deux chapitres precedents. On met done dans le fichier logo. ml toutes les definitions 
necessaires, du type etat du chapitre 8 a la fonction logo du chapitre 9. Pour travailler 
en Logo, il faut alors lancer Caml Light, puis entrer : 

include "logo" ; ; 

logo "une phrase Logo" ; ; 

logo "une autre phrase Logo" ; ; 

quit () ; ; 

Cela vaut mieux certes que de reecrire tout le code du systeme Logo, mais ce n'est pas 
encore ideal : il faut expliquer aux utilisateurs que chaque phrase Logo doit etre precedee 
de logo " et suivie de " ; ; , ce qui n'a rien de naturel s'ils ne connaissent pas Caml. II 
serait bien meilleur d'avoir un programme logo qu'on puisse lancer comme n'importe 
quel autre programme de la machine et sous lequel on puisse entrer directement les 
phrases Logo a executer. 

Pour ce faire, il faut abandonner le systeme Caml Light interactif et utiliser le 
compilateur independant. Ce dernier transforme un fichier contenant des phrases Caml 
Light en un programme directement executable. Supposons que le fichier hello. ml 
contienne les trois phrases : 

let message = "Bonjour tout le monde ! " ; ; 
print_string message;; 
print_newline () ; ; 

Pour compiler ce fichier, il faut lancer le compilateur Caml Light a partir de Pinterprete 
de commandes de votre machine. Rappelons que Pinterprete de commandes est le pro- 
gramme systeme qui permet de lancer d'autres programmes en tapant des lignes de 
commandes. C'est par exemple le programme « Invite de commande» de MS Windows, 
ou Pun des nombreux « shells » du systeme Unix. Sur le Macintosh, le systeme standard 
ne fournit pas d'interprete de commandes. Le compilateur independant de Caml Light 
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tourne done sous un interprete de commandes appele MPW (Macintosh Programmer's 
Workshop), et disponible gratuitement aupres d' Apple. Les lecteurs qui disposent d'un 
Macintosh mais qui n'ont pas MPW ne peuvent pas utiliser le compilateur independant ; 
la section 10.6 explique comment proceder en utilisant seulement le systeme interactif. 

Nous supposons que l'interprete de commandes a le symbole $ pour signe d'invite. 
Les lignes qui commencent par $ consistent done en des commandes entrees par 
Putilisateur. Les autres lignes sont les messages qu'affichent les commandes pendant 
qu'elles s'executent. 

On compile le fichier hello. ml a l'aide de la commande 
$ camlc -o hello hello. ml 

Cette commande signifie «mettre dans le fichier hello le code compile pour les phrases 
Caml contenues dans le fichier hello. ml ». S'il n'y a pas d'erreurs, elle se deroule sans 
rien afficher. Pour executer le code produit, il faut lancer la commande: 

$ camlrun hello 

Bon jour tout le monde ! 

Le programme a execute les trois phrases qui le composent, dans l'ordre, puis a rendu 
la main. Rien d'autre ne s'affiche : contrairement a ce qui se passe en utilisation inter- 
active, le systeme n'ecrit pas de lui-meme le type et la valeur de chaque phrase. Dans 
un programme independant, si l'on veut faire afficher un resultat, il faut le faire ex- 
plicitement en appelant une fonction d'impression comme print_string. 

Les differences entre l'utilisation interactive et la construction de programmes 
independants sont faibles : les deux modes effectuent presque les memes operations, 
mais dans un ordre different. Voici ce qui se passe quand on charge un fichier inter- 
activement avec include (a gauche), compare avec ce qui se passe quand on compile 
ce fichier puis qu'on l'execute (a droite) : 

# include "fichier .ml" ; ; 

lecture de la phrase 1 
typage et compilation de la phrase 1 
execution du code de la phrase 1 
impression des resultats 
lecture de la phrase 2 
typage et compilation de la phrase 2 
execution du code de la phrase 2 
impression des resultats 



10.3 Entrees-sorties de base 

Reprenons nos tentatives de realisation d'un systeme Logo independant de Caml 
Light. II ne suffit pas de compiler avec camlc le fichier logo. ml contenant toutes les 
definitions du type etat du chapitre 8 a la fonction logo du chapitre 9. Ce fichier ne 



$ camlc -o fichier fichier. ml 

lecture de la phrase 1 
typage et compilation de la phrase 1 
sauvegarde du code de la phrase 1 
lecture de la phrase 2 
typage et compilation de la phrase 2 
sauvegarde du code de la phrase 2 

$ camlrun fichier 

execution du code de la phrase 1 
execution du code de la phrase 2 
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contient que des definitions de fonctions ; l'execution du code compile va done executer 
les definitions de fonction, qui n'ont pas d'effet visible, puis rendre la main. Bref, notre 
Logo ne fera rien du tout tant qu'on n'y aura pas ajoute du code pour lire des com- 
mandes au clavier et les envoyer a la fonction d'execution. 

Voici un apergu des fonctions d'entree-sortie de la bibliotheque Caml Light. Pour 
afficher sur l'ecran, on dispose des fonctions suivantes : 



print_string s 
print_char c 
print_int n 
print_float / 
print_newline () 



affiche la chaine s 
affiche le caractere c 
affiche l'entier n 
affiche le nombre flottant / 
affiche un retour a la ligne 
Pour lire depuis le clavier, on a read_line () , qui lit une ligne au clavier et renvoie la 
chaine de caracteres correspondante. 

Pour lire et ecrire sur des fichiers, au lieu d'utiliser l'ecran et le clavier, il faut utiliser 
des canaux d'entree (type in_channel) ou de sortie (type out _ channel). L'ouverture 
d'un fichier en ecriture, par la fonction open_out, renvoie un canal de sortie sur le 
fichier indique. 

# let canal_sortie = open_out "essai .tmp" ; ; 
canal_sortie : out _ channel = <abstr> 

Pour ecrire sur un canal de sortie, on dispose des fonctions output_string et 
output_char. 

# output_string canal_sortie "Une ligne de texte\n" ; ; 

- : unit = () 

Enfin, on ferme le canal de sortie avec close_out. 

# close_out canal_sortie ; ; 

- : unit = () 

La lecture est tres symetrique : ouverture d'un canal d'entree avec open_in, lecture 
ligne a ligne par input_line ou caractere par caractere avec input_char, et fermeture 
par close_in. 

# let canal_entree = open_in "essai .tmp" ; ; 
canal_entree : in_ channel = <abstr> 

# input_char canal_entree ; ; 

- : char = 'U' 

# input_line canal_entree ; ; 

- : string = "ne ligne de texte" 

# input_line canal_entree ; ; 
Exception non rattrapee: End_of_file 

Comme on le voit sur le dernier exemple, l'exception End_of_file se declenche 
lorsqu'on essaye de lire apres la fin du fichier. 

La lecture au clavier et l'affichage a l'ecran sont en fait des cas particuliers d'entrees- 
sorties sur fichiers. Le systeme fournit en effet trois canaux predefinis : 



Identificateur 


Nom savant 


Relie a . . . 


std_in 

std_out 

std_err 


entree standard du programme 
sortie standard du programme 
sortie d'erreur du programme 


clavier 

ecran 

ecran 
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Par exemple, print_string s est exactement equivalent a output_string std_out s 
et de meme read_line () est synonyme de input_line std_in. 

Une autre maniere de lire un fichier caractere par caractere est de passer par 
Pintermediaire d'un flux. La fonction stream_of _channel renvoie le flux des caracteres 
lus depuis un canal d'entree. En particulier, stream_of _channel std_in est le flux des 
caracteres tapes au clavier. C'est cette fonction qui va nous permettre d'appliquer des 
analyseurs lexicaux non plus a des chaines de caracteres, mais directement a des fichiers. 
Voici par exemple la boucle d'interaction qu'il faut ajouter a la fin du fichier logo. ml 
pour obtenir enfin un systeme Logo independant. 

let flux_d' entree = stream_of _channel std_in in 

let f lux_lexemes = analyseur_lexical flux_d' entree in 

while true do 

print_string "? "; flush std_out; 

try execute_programme(analyse_programme f lux_lexemes) with 
I Parse_error -> 

print_string "Erreur de syntaxe"; print_newline () 
I Failure s -> 

print_string ("Erreur a l'execution: " " s) ; print_newline () 

done ; ; 

Le flush std_out qui suit Paffichage du signe d'invite sert a garantir que l'invite 
est bien affichee a l'ecran avant que l'on ne commence a lire la prochaine phrase. En 
effet, les ecritures sur des canaux sont «tamponnees» (buffered, en anglais) pour plus 
d'efficacite ; autrement dit, le systeme accumule en memoire un certain nombre d'ordres 
d'ecriture et les effectue en bloc plus tard. En consequence, evaluer print_string "? " 
ne suffit pas pour assurer qu'un point d'interrogation apparait sur l'ecran ; il faut en 
plus «vider » (to flush, en anglais) explicitement les ecritures en attente. C'est le role de 
la fonction predefinie flush ; d'autres fonctions, comme close_out ou print_newline, 
vident aussi le canal de sortie. 

Nous pouvons maintenant compiler logo. ml et executer le code produit. 

$ camlc -o logo logo. ml 
$ camlrun logo 

Au lancement de logo, toutes les definitions de fonctions sont evaluees en sequence, 
sans effets visibles, puis la phrase ci-dessus est executee. La boucle infinie while true 
do . . . affiche un signe d'invite, puis lit une phrase sur le flux des caracteres entres au 
clavier. Si le premier mot est fin, on sort du programme en rendant immediatement 
la main a l'aide de la fonction predefinie exit. Sinon, on execute la phrase lue et on 
refait un tour de boucle pour lire la suivante. 

10.4 Programmes en plusieurs modules 

Plutot que de mettre tout le texte d'un programme dans un seul fichier, il est 
preferable de le decouper en plusieurs petits fichiers, que l'on compile un par un. Non 
seulement l'edition et la recompilation sont facilities, mais surtout on s'autorise alors 
la reutilisation de certains morceaux du programme dans d'autres programmes. Par 
exemple, les fonctions sur le crayon electronique (avance, . . . ) sont susceptibles d'etre 
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utilisees dans bien d'autres programmes que notre systeme mini-Logo. On appelle mod- 
ules ces morceaux de programme suffisamment autonomes pour etre eventuellement 
reutilises plus tard et programmation modulaire le style de programmation consistant 
a decouper systematiquement les programmes en modules. 

Nous allons done decouper le mini-Logo en cinq modules : 

crayon le crayon electronique : fonctions avance, tourne, . . . 

langage le langage de commandes : type ordre, fonction execute_ordre 

alex l'analyseur lexical: type lexeme, fonction lire_lexeme, . . . 

asynt l'analyseur syntaxique : fonction analyse_programme, . . . 

logo le programme principal : la boucle d'interaction. 

A chaque module correspond un ficliier source, qui a le meme nom que le module, 
avec l'extension .ml. Par exemple, les fonctions du module crayon sont definies dans 
le module crayon. ml. Le contenu de ces fichiers est resume figure 10.1. 



Noms exterieurs 

La figure 10.1 montre que nous avons ajoute a chaque module des lignes de la 
forme #open plus un nom de module. Ces lignes indiquent d'ou proviennent les noms 
exterieurs qu'on utilise dans le fichier sans les y avoir dermis. Grace a ces indications, 
le compilateur sait oil aller chercher le type et le code compile de ces noms exterieurs. 

II y a deux manieres de faire reference a un identificateur exterieur. L'une 
est d'utiliser des noms « qualifies », de la forme: nom du module d'origine, 
suivi de deux caracteres _ (souligne), suivi du nom de l'identificateur. Ainsi, 

asynt analyse_programme signifie « l'identificateur analyse_programme defini 

dans le module asynt ». 

L'autre maniere d'acceder a des identificateurs exterieurs est d'introduire des direc- 
tives #open "module". Cette directive indique au compilateur qu'on veut «ouvrir» (to 
open, en anglais) le module donne en argument. Plus precisement, cette directive dit 
que si l'on rencontre un identificateur non qualifie qui n'est pas defini dans le fichier 
en cours de compilation, il faut le chercher dans le module argument de #open. Par 
exemple, dans le fichier asynt. ml, apres la ligne 
#open "langage" ; ; 

on peut faire reference au type ordre et a ses constructeurs par des identificateurs sim- 
ples (Av, Re, . . . ). Sans le #open, il aurait fallu utiliser des noms qualifies (langage Av, 

. . . ) . Plusieurs directives #open dans un fichier donnent ainsi au compilateur une liste 
de modules oil aller chercher les identificateurs externes. 

Le choix entre ces deux manieres de faire reference a un nom exterieur est une 
pure question de style : l'emploi de #open donne des programmes plus compacts et 
permet de renommer les modules plus facilement ; l'emploi de noms qualifies montre 
plus clairement la structure modulaire du programme. 



La bibliotheque de modules du systeme 

II n'y a pas que les programmes de Putilisateur a etre decoupes en modules : la bib- 
liotheque de fonctions predefinies du systeme Caml Light se presente elle aussi sous la 
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Fichier crayon. ml 

#open "graphics";; 

let round x = . . . ; ; 

type etat = ... ; ; 

let crayon = ... ; ; 

let avance d = ... ; ; 

let pi_sur_180 = ... ; ; 

let tourne angle = . . . ; ; 

let avance d = ... ; ; 

let couleur_du_trace = ... ; ; 

let couleur_du_f ond = ... ; ; 

let zero_x = ... ; ; 

let zero_y = ... ; ; 

let vide_ecran () = ... ; ; 



Fichier langage .ml 

#open "crayon" ; ; 

type nombre = . . . ; ; 

let f lottant = ... ; ; 

type expression = ... ; ; 

let ajoute_nombres = ... ; ; 

let soustrait_nombres = . . . ; ; 

let multiplie_nombres = . . . ; ; 

let divise_nombres = ... ; ; 

let compare_nombres = ... ; ; 

let rec valeur_expr env = ... ; ; 

type ordre = ... ; ; 

type procedure = . . . ; ; 

let procedures_def inies = ... ; ; 

let def init_procedure = . . . 

and def inition_de = ... ; ; 

let valeur_entiere = ... ; ; 

let rec execute_ordre env = . . . ; ; 

type phrase_logo = . . . ; ; 

type programme_logo = ... ; ; 

let execute_phrase = . . . 

let execute_programme = . . . ; ; 



Fichier alex.ml 

type lexeme = ... ; ; 
let rec saute_blancs = ... 
let rec lire_entier = . . . ; 
let rec lire_decimales = . . 
let rec lire_mot = ... ; ; 
let lire_lexeme = ... ; ; 
let rec analyseur_lexical = 



Fichier asynt . ml 

#open "langage";; 
#open "alex" ; ; 

let rec analyse_programme = 

and analyse_phrase = ... 

and parametres = ... 

and ordre = ... 

and liste_d' ordres = ... 

and suite_d' ordres = ... 

and nombre = ... 

and expression_simple = ... 

and expression = ... 

and reste_de_l' expression = 

and liste_d'expressions = . 



Fichier logo .ml 

#open "langage";; 
#open "alex" ; ; 
#open "asynt" ; ; 

let flux_d' entree = ... in 
let f lux_lexemes = ... in 
while true do 

done ; ; 



Figure 10.1: Decoupage en modules de l'interprete mini-Logo 
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forme d'un certain nombre de modules. Par exemple, la fonction sub_string provient 
du module de bibliotheque string ; de meme, des operateurs comme + et + . ne sont pas 
entierement predefinis dans le systeme, mais proviennent de modules de bibliotheque 
(les modules int et float, respectivement). Certains de ces modules de bibliotheque 
(comme int, float et string) sont implicitement «ouverts» au lancement du compi- 
lateur. Tout se passe comme si on avait mis au debut de tous les fichiers : 
#open "int";; #open "float";; #open "string";; 

C'est ce qui explique qu'on reference directement sub_string dans n'importe quel 
programme, sans mettre au prealable #open "string" ni devoir utiliser la forme 

completement qualifiee string sub_string. 

D'autres modules de bibliotheque, d'un emploi moins frequent, ne sont pas 
«ouverts» automatiquement au debut de chaque compilation. C'est le cas par exemple 
du module graphics fournissant les commandes graphiques de base. II faut done 
mettre #open "graphics" au debut du fichier crayon. ml, qui fait reference a ces 
commandes graphiques. 

Compilation separee 

Les modules composant un programme se compilent un par un a l'aide de la com- 
mande camlc -c. 

$ camlc -c crayon. ml 
$ camlc -c langage.ml 
$ camlc -c alex.ml 
$ camlc -c asynt.ml 
$ camlc -c logo. ml 

L 'option -c indique au compilateur qu'il ne faut pas essayer de produire un fichier de 
code executable. En d'autres termes, cette option previent le compilateur que le fichier 
donne en argument n'est pas un programme complet, mais seulement un morceau de 
programme. L'execution de la commande camlc -c crayon. ml produit deux fichiers: 

• le fichier crayon. zo, qu'on appelle « fichier de code objet»; il contient du 
code compile pas encore executable, car faisant reference a des identificateurs 
exterieurs ; 

• le fichier crayon. zi, qu'on appelle « fichier d'interface compilee» ; il contient des 
informations de typage sur les objets declares dans le module crayon : types des 
identificateurs definis, noms des types concrets declares avec leurs constructeurs, 
etc. 

Le fichier d'interface compilee crayon. zi sert pour la compilation des modules qui 
utilisent le module crayon: quand on compile un module contenant #open "crayon" 

ou un nom qualifie de la forme crayon . . . , le compilateur lit le fichier crayon. zi et 

y trouve toutes les informations de typage dont il a besoin. 

Ce comportement introduit une contrainte sur l'ordre dans lequel on compile les 
modules : lorsqu'on compile un module, il faut avoir compile au prealable tous les mod- 
ules qu'il utilise, ayant ainsi produit tous les fichiers .zi necessaires a sa compilation. 
Dans le cas du mini-Logo, ces contraintes se resument par le schema suivant (une fleche 
de A vers B signifie que A utilise B et done que B doit etre compile avant A). 
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langage .ml asynt .ml — alex.ml 

I 

crayon. ml 

La sequence de compilation donnee ci-dessus verifie toutes les contraintes. On a aussi 
la liberte de compiler alex.ml plus tot, avant crayon ou langage. 

Edition de liens 

Lorsque tous les modules composant le programme ont ete compiles, il faut lier 
ensemble leurs fichiers de code objet, obtenant ainsi un fichier executable par camlrun. 
Cette operation s'appelle F edition de liens et s'effectue en appelant camlc avec la liste 
des fichiers en . zo a lier ensemble. 

$ camlc -o logo crayon. zo langage. zo alex.zo asynt. zo logo.zo 

Comme pour un programme mono-fichier, Foption -o sert a donner le nom du fichier 
executable a produire. L'ordre des fichiers .zo sur la ligne a son importance: il doit 
respecter la meme contrainte que pour l'ordre des compilations, a savoir qu'un module 
doit apparaitre avant les modules qui Futilisent. 



10.5 Interfaces de modules 

Souvent, un module contient des definitions a usage interne, qui ne sont pas 
censees etre employees a Fexterieur du module. Dans le module crayon, par exemple, 
Fenregistrement a champs mutables qui contient Fetat courant de la tortue n'est 
pas cense etre modifie directement par les utilisateurs de ce module ; les utilisateurs 
sont supposes passer par Fintermediaire des fonctions avance, tourne, . . . On peut 
s'imposer de respecter cette convention soi-meme ; mais le systeme est capable de 
la garantir, si on lui demande explicitement de «cacher» certains des identificateurs 
definis par le module, ce qui les rend ainsi inaccessibles depuis Fexterieur du module. 

Pour ce faire, il faut ecrire une interface au module. L'interface d'un module contient 
des declarations pour tous les identificateurs du module que Fon veut rendre visibles de 
Fexterieur ; les identificateurs definis dans le module mais non declares dans l'interface 
seront automatiquement caches. L'interface d'un module reside dans un fichier ayant 
le meme nom que le module mais avec l'extension .mli. Par opposition, le fichier avec 
l'extension .ml qui contient les definitions du module s'appelle l'implementation du 
module. Par exemple, voici le fichier d'interface du module crayon : 

value vide_ecran: unit -> unit 
and fixe_crayon: bool -> unit 
and tourne: float -> unit 
and avance: float -> unit;; 

Comme on le voit, les declarations d'identificateurs sont introduites par le mot-cle value 
et consistent en le nom de Fidentificateur suivi de son type. Les interfaces peuvent aussi 
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contenir des definitions de types et d'exceptions. Par exemple, l'interface du module 
alex rend public le type des lexemes, en plus de la fonction d'analyse lexicale. 

Fichier alex.mli 

type lexeme = 

I Mot of string 

I Symbole of char 

I Entier of int 

I Flottant of float;; 

value analyseur_lexical : char stream -> lexeme stream;; 

On trouvera en figure 10.2 la nouvelle structure du mini-Logo, une fois qu'on a 
ajoute des interfaces a tous les modules (sauf le module principal logo, qui ne definit 
rien de toute facon). Remarquez que si un type est defini dans l'interface d'un module, 
il est automatiquement defini dans l'implementation du module ; il ne faut done pas 
recopier sa definition dans cette implementation. 

Compilation des interfaces 

Les fichiers d'interface se compilent exactement comme les fichiers d'implementation, 
par la commande camlc -c. Exemple: 
$ camlc -c crayon. mli 

L'execution de cette commande cree un fichier crayon. zi contenant les declarations de 
crayon. mli sous une forme compilee. Comme dans le cas des modules sans interface 
(section 10.4), le fichier crayon. zi est consulte par le compilateur lors de la compi- 
lation des modules qui font reference au module crayon. De plus, lorsqu'on compile 
l'implementation crayon. ml, 
$ camlc -c crayon. ml 

le compilateur verifie la coherence de l'implementation avec l'interface compilee 
crayon. zi, e'est-a-dire qu'il verifie que tous les identificateurs declares dans l'interface 
sont bien definis dans l'implementation et qu'ils ont bien le type annonce dans 
l'interface. C'est en cela que la compilation d'un module avec interface explicite differe 
de la compilation d'un module sans interface: si l'interface .mli existe alors le .zi est 
construit par compilation du .mli et la compilation de l'implementation .ml consulte 
le .zi pour verifier la coherence; si l'interface .mli n'existe pas, alors la compilation 
de l'implementation .ml cree un .zi qui rend public tout ce que l'implementation 
.ml definit. II en decoule deux contraintes sur l'ordre dans lequel on effectue les 
compilations: d'une part, l'interface explicite mod. mli doit etre compilee avant tous 
les fichiers (.ml et .mli) qui font reference au module mod; d'autre part, l'interface 
explicite mod. mli doit etre compilee avant l'implementation mod. ml. Dans le cas du 
mini-Logo, il en decoule les contraintes suivantes : 

crayon. ml langage.ml asynt.ml logo. ml alex. ml 




crayon. mli langage .mli asynt .mli— *- alex.mli 
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Fichicr crayon. mli 

value vide_ecran: unit -> unit 
and fixe_crayon: bool -> unit 
and tourne: float -> unit 
and avance: float -> unit;; 



Fichicr crayon. ml 

#open "graphics";; 

let round x = . . . ; ; 

type etat = ... ; ; 

let crayon = ... ; ; 

let avance d = ... ; ; 

let pi_sur_180 = ... ; ; 

let tourne angle = . . . ; ; 

let avance d = ... ; ; 

let couleur_du_trace = ... ; ; 

let couleur_du_f ond = ... ; ; 

let zero_x = ... ; ; 

let zero_y = ... ; ; 

let vide_ecran () = ... ; ; 



Fichicr alex.mli 



type lexeme = ... ; ; 
value analyseur_lexical: 

char stream -> lexeme stream; ; 



Fichier alex.ml 

let rec saute_blancs = ... 
let rec lire_entier = ... 
let rec lire_decimales = . 
let rec lire_mot position = 
let lire_lexeme = ... ; ; 
let rec analyseur_lexical = 



Fichicr asynt .mli 

value analyse_phrase : 

alex lexeme stream -> 

langage phrase_logo 

and analyse_programme : 

alex lexeme stream -> 

langage programme_logo ; ; 



Fichier langage .mli 

type nombre = . . . ; ; 
type expression = ... ; ; 
type ordre = ... ; ; 
type procedure = . . . ; ; 
type phrase_logo = . . . ; ; 
type programme_logo = ... ; ; 
value execute_phrase : 

phrase_logo -> unit 
and execute_programme : 

programme_logo -> unit;; 



Fichicr langage .ml 

#open "crayon" ; ; 

let f lottant = ... ; ; 

let ajoute_nombres = ... ; ; 

(* ... *) 

let rec valeur_expr env = ... ; ; 

let procedures_def inies = ... ; ; 

let def init_procedure = . . . 

and def inition_de = ... ; ; 

let rec execute_ordre env = . . . ; ; 

let execute_phrase = ... 

let execute_programme = . . . ; ; 



Fichier asynt . ml 

#open "langage" ; ; 

#open "alex" ; ; 

let rec analyse_programme = 

and analyse_phrase = . . . 

and parametres = ... 

and ordre = ... 

and liste_d' ordres = ... 

and suite_d' ordres = ... 

and nombre = ... 

and expression_simple = . . . 

and expression = ... 

and reste_de_l' expression = 

and liste_d' expressions = . . 



Fichier logo .ml 

#open "langage" ; ; 

#open "alex" ; ; 

#open "asynt" ; ; 

let flux_d' entree = ... in 

let f lux_lexemes = ... in 

while true do 

done ; ; 



Figure 10.2: Ajout d'interfaces explicites aux modules de l'interprete mini-Logo 
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Remarquez que les fichiers d'implementation (.ml) sont compilables dans n'importe 
quel ordre: si un module A utilise un module B, on peut tres bien compiler 
1'implementation de A avant l'implementation de B ; il suffit que l'interface de B ait 
deja ete compilee. C'est le cas dans la sequence de compilation ci-dessous. 

$ camlc -c langage .mli 
$ camlc -c crayon. mli 
$ camlc -c langage. ml 
$ camlc -c alex.mli 
$ camlc -c asynt.mli 
$ camlc -c logo. ml 
$ camlc -c asynt.ml 
$ camlc -c crayon. ml 
$ camlc -c alex.ml 

On a choisi d'ecrire et de compiler d'abord les implementations de langage et de logo, 
qui representent le cceur du systeme, et de repousser a plus tard Pecriture de asynt .ml, 
alex.ml et crayon. ml. Plus generalement, l'introduction d'interfaces explicites pour les 
modules permet de se liberer du style d'ecriture des programmes strictement ascendant 
{bottom-up, en anglais) que nous avons utilise jusqu'ici. Par la suite, nous utiliserons 
des interfaces a chaque fois que nous avons besoin d'un module de fonctions auxiliaires, 
dont nous preferons cependant repousser l'implementation a plus tard. 

10.6 Compilations interact ives 

Le compilateur independant n'est pas le seul moyen de compiler des fichiers : le 
systeme interactif fournit lui aussi des commandes pour compiler des fichiers (compile) 
et charger et executer du code compile (load_object). La commande 

# compile "monf ichier .ml" ; ; 

compile le fichier monf ichier .ml exactement comme le ferait l'appel camlc -c 
monf ichier .ml du compilateur independant. La fonction compile accepte egalement 
des fichiers d'interface ( .mli) en plus des fichiers d'implementation ( .ml). La commande 

# load_object "monf ichier .zo" ; ; 

charge en memoire le code compile qui se trouve dans le fichier monf ichier . zo et 
Pexecute phrase par phrase. Les deux fonctions compile et load_object permettent 
done de compiler et d'executer un programme ecrit sous forme modulaire a partir 
du systeme interactif, ce qui est precieux pour les utilisateurs de Macintosh ne dis- 
posant pas du compilateur independant. Par exemple, le programme logo se compile 
et s' execute de la maniere suivante : 

# compile "langage .mli" ; ; 

# compile "crayon. mli" ; ; 

# compile "langage .ml" ; ; 

# compile "alex.mli";; 

# compile "asynt.mli";; 

# compile "logo.ml";; 

# compile "asynt.ml";; 

# compile "crayon. ml" ; ; 

# compile "alex.ml";; 
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# load_object "crayon. zo" ; ; 

# load_object "langage . zo" ; ; 

# load_object "alex.zo";; 

# load_object "asynt.zo";; 

# load_object "logo.zo";; 

Meme lorsqu'on dispose du compilateur independant, charger du code compile dans 
le systeme interactif avec la fonction load_object est souvent tres utile pour essayer 
et mettre au point les fonctions d'un programme. Par exemple, pour tester Panalyseur 
syntaxique du mini-Logo, il suffit de lancer le systeme interactif et de faire : 

# load_object "alex.zo";; 

# load_object "asynt.zo";; 

# asynt analyse_phrase 

(alex analyseur_lexical 

(stream_of _string "ve av 15 ."));; 

L'utilisation interactive de modules compiles independamment est un peu delicate. En 
particulier, il faut charger les fichiers de code compile dans le bon ordre (un module 
doit etre charge avant les modules qui l'utilisent). Ces points sont expliques en details 
dans le chapitre 4 du Manuel de reference du langage Caml. 
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Oil Caml attrape des boutons et ouvre les fenetres. 



UMAINS ET MACHINES n'interagissent pas uniquement par l'intermediaire 
d'un clavier et d'un ecran de texte. Nous montrons dans ce chapitre 
comment doter les programmes Caml de jolies interfaces homme-machine 
graphiques, avec menus, boutons, barres de defilement, etc. Nous utiliserons pour cela 
la bibliotheque CamlTk, qui fournit une interface simple avec la boite a outils (toolkit) 
Tk. Les programmes de ce chapitre peuvent etre executes avec camltktop, une version 
du systeme interactif Caml qui integre la bibliotheque CamlTk ; elle se lance par la 
commande camllight camltktop. 




11.1 Structure d'une interface graphique 

Une interface utilisateur realisee avec CamlTk est constitute d'un certain nombre 
de composants de base (en anglais, widgets), tels que boutons, menus, zones d'entree 
de texte, etc. Le programme cree les composants dont il a besoin pour interagir avec 
l'utilisateur, et les place dans une ou plusieurs fenetres a l'ecran. II associe des fonc- 
tions Caml a certains types d'evenement, tels que un clic de la souris dans un bouton, 
la selection d'une entree de menu, ou l'appui d'une touche du clavier. Finalement, il 
appelle la boucle d'interaction de CamlTk, qui affiche tous les composants a l'ecran, 
gere l'interaction avec l'utilisateur, et appelle les fonctions Caml correspondant aux 
evenements qui interessent le programme. 

Commengons par un exemple tres simple : une interface reduite a 

Pressez-mo i. 

un seul bouton, qui affiche le message Bonj our ! lorsque 1 utilisateur • 

clique sur le bouton. 

# #open "tk" ; ; 

let f enetre_principale = openTk () in 

let action () = print_string "Bonjour!"; print_newline () in 
let bouton = 

button create f enetre_principale 

[Text "Pressez-moi" ; Command action] in 

pack [bouton] [] ; 



194 



Interfaces graphiques 



mainLoop () ; ; 

Comme tous les programmes CamlTk, celui-ci commence par un appel a openTk. Cette 
fonction initialise la bibliotheque CamlTk, et renvoie un composant qui represente la 
fenetre principale de l'application. Ensuite, le programme cree le bouton qui constitue 

l'essentiel de son interface, a l'aide de la fonction button create. Comme toutes les 

fonctions de creation de composants CamlTk, button create prend deux arguments : 

un composant « pere » et une liste d'options qui determinent l'apparence et le comporte- 
ment du bouton. Le composant « pere » est le composant a l'interieur duquel le bouton 
doit apparaitre ; ici, c'est la fenetre principale de l'application, telle que renvoyee par 
openTk (). Quant aux options, nous en donnons ici deux: Text "Pressez-moi", qui 
indique que le bouton doit porter Petiquette « Pressez-moi », et Command action, qui 
associe la fonction Caml action aux clics sur le bouton. 

Le programme appelle ensuite la fonction pack («emballer», en anglais) pour ef- 
fectuer le placement des composants dans les fenetres. La fonction pack prend une liste 
de composants et une liste d'options expliquant comment placer les composants les uns 
par rapport aux autres (l'un au-dessus de l'autre ou l'un a cote de l'autre, avec ou sans 
espace entre les composants, etc.). Ici, le placement est tres simple, puisqu'il n'y a qu'un 
seul composant dans notre interface. Enfin, la fonction mainLoop est appelee. Celle-ci 
ouvre la fenetre a l'ecran, affiche le bouton dedans, et appelle la fonction action a 
chaque fois que l'utilisateur clique sur le bouton. La fonction mainLoop ne rend la main 
que lorsque l'utilisateur a ferme la fenetre CamlTk, ou bien interrompu le programme. 

11.2 Relier des composants entre eux 

Passons maintenant a un exemple plus interessant, 
qui introduit deux nouveaux types de composants 
(les glissieres et les cadres), et montre comment 
coupler entre eux les etats de plusieurs composants. 
II s'agit d'un programme permettant de choisir 
des couleurs a l'ecran et jouant sur les intensites 
des trois couleurs primaires (rouge, vert, bleu). 
Trois glissieres controlent ces intensites ; des que 
l'utilisateur deplace l'une des glissieres, la couleur 
correspondante est afnchee dans le rectangle en bas 
de la fenetre. 

# let f enetre_principale = openTk () ; ; 

let creer_glissiere nom = 

scale create f enetre_principale 

[Label nom; From 0.0; To 255.0; 
Length (Centimeters 10.0); Orient Horizontal];; 

let rouge = creer_glissiere "Rouge" 
and vert = creer_glissiere "Vert" 
and bleu = creer_glissiere "Bleu" 
and echantillon = 

frame create f enetre_principale 
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[Height (Centimeters 1.5); Width (Centimeters 6.0)] 

and quitter = 

button create f enetre_principale 

[Text "Quitter"; Command closeTk];; 

Nous commencons par creer trois glissieres (scale) pour chacune des couleurs primaires 
rouge, vert et bleu. Ces glissieres prennent des valeurs entre 0 et 255 (From 0.0; To 
255 . 0), ont une longueur de 10 cm (Length (Centimeters 10 . 0) ) et sont orientees dans 
le sens horizontal (Orient Horizontal). Pour afficher la couleur, nous creons egalement 
un cadre (frame), qui est une zone inactive de 6 cm sur 1,5 cm (Height (Centimeters 
1.5) ; Width(Centimeters 6.0)). Enfin, le dernier composant du programme est un 
bouton etiquete « Quitter » dont Paction (closeTk) est de fermer la fenetre de CamlTk, 
terminant ainsi la boucle d'interaction mainLoop. 

# let raf raichir_couleur x = 

let r = int_of_float (scale get rouge) 

and v = int_of_float (scale get vert) 

and b = int_of_float (scale get bleu) in 

let couleur = printf __sprintf "#°/„02x°/.02x°/.02x" r v b in 

frame configure echantillon [Background (NamedColor couleur)] ; ; 

La fonction raf raichir_couleur est le coeur du programme: elle change la couleur 
d'echantillon pour refleter l'etat courant des trois glissieres. Elle lit la valeur 

numerique courante des trois glissieres a l'aide de scale get, puis construit le nom 

CamlTk de la couleur correspondante. Ce nom est de la forme #rrvvbb, ou rr, vv et 
bb sont les intensites de rouge, de vert et de bleu, exprimees sous forme d'un nombre 
hexadecimal a deux chiffres. 

Le nom de la couleur est construit a l'aide de la fonction sprintf du module 
printf, qui est un puissant outil d'impression formatee. La fonction sprintf prend en 
argument une chaine de caractere, le « format », et un certain nombre d'entiers ou de 
chaines de caracteres ; elle afhche la chaine de caracteres, en remplagant les sequences 
de la forme °L plus une lettre par le prochain argument. Par exemple, sprintf "°/„d + 
°/ 0 d" 1 2 renvoie la chaine "1 + 2". Les chiffres et la lettre suivant °/ 0 indiquent le type 
de l'argument a afficher et le format d'affichage a utiliser. De nombreux formats sont 
disponibles. Dans Pexemple ci-dessus, nous avons utilise %d, qui convertit un entier en 
decimal. Dans la fonction raf raichir_couleur, nous utilisons °/ 0 02x, qui convertit un 
entier en hexadecimal (x), sur deux chiffres (2), en completant a gauche avec des zeros 
si necessaire (0). 

Enfin, nous changeons la couleur de fond du cadre echantillon a l'aide de la 

fonction frame configure. De maniere generale, toutes les options qui peuvent 

etre specifiees au moment ou l'on cree un composant (en second argument de com- 
posant create) peuvent aussi etre specifiees ou modifiees plus tard via la fonction 

composant configure. Mettant immediatement ce principe en pratique, nous utilison 

scale configure pour associer la fonction raf raichir_couleur au deplacement de 

chacune des glissieres : 

# scale configure rouge [ScaleCommand raf ra!chir_couleur] ; 

scale configure vert [ScaleCommand raf ra!chir_couleur] ; 

scale configure bleu [ScaleCommand raf ra£chir_couleur] ; 

pack [rouge; vert; bleu] [Side Side_Top] ; 
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pack [quitter] [Side Side_Bottom] ; 

pack [echantillon] [Side Side_Bottom; PadY (Millimeters 2.0)]; 
mainLoop () ; ; 

Comme dans le premier exemple, nous plagons finalement tous les composants a l'aide 
de pack, puis langons l'interaction avec Putilisateur en appelant mainLoop () . Le place- 
ment se fait en trois temps : d'abord, les trois glissieres en haut de la fenetre (Side 
Side_Top) ; puis le bouton « Quitter » en bas (Side Side_Bottom) ; enfin, le cadre 
echantillon en bas de l'espace restant libre (Side Side_Bottom), et avec une marge 
de 2 mm en haut et en bas (PadY (Millimeters 2.0)) pour que ce soit plus joli. 



Francs 



Euros: 15.24 



11.3 Un convertisseur de devises 

Notre prochain exemple est d'actualite : il s'agit d'une calculatrice de conversion 
francs-euros. Elle introduit plusieurs nouveaux types de composant : les zones d'entree, 
dans lesquelles Putilisateur peut taper et editer un texte ; les etiquettes ; les menus 
deroulants. Elle illustre egalement le mecanisme general de liaison de CamlTk, qui 
permet d'associer une action Caml a presque n'importe quel type d'evenement (appui 
de touche, clic de souris, mouvement de la souris, etc.). 

La calculatrice se compose de deux zones d'entree, l'une pour 
les francs, l'autre pour les euros. Des que Putilisateur modifie le 
montant figurant dans l'une des zones, ce montant est converti 
dans l'autre monnaie et affiche dans l'autre zone. Nous commengons par la fonction 
centrale de Papplication, qui assure cette mise a jour automatique d'une zone d'entree 
(le parametre dest) lorsque l'autre zone (le parametre source) change. 

# let synchronise_zones source dest taux_source taux_dest = 

function infos -> 
try 

let mont ant _ source = f loat_of _string (entry get source) in 

let montant_dest = 

mont ant _ source *. !taux_source /. !taux_dest in 

entry delete_range dest (At 0) End; 

entry insert dest (At 0) 

(printf sprintf "°/ 0 .2f" montant_dest) 

with Failure _ -> 

entry delete_range dest (At 0) End; 

entry insert dest (At 0) "erreur";; 

La fonction entry get renvoie le texte qui figure actuellement dans un composant 

«zone d'entree » (entry). Ce texte peut etre modifie par le programme a l'aide de 

entry delete_range, qui efface un intervalle de caracteres (ici, depuis At 0, le 

premier caractere, jusqu'a End, le dernier caractere, effagant ainsi tout le texte), et 

entry insert, qui insere la chaine donnee en argument a la position specifiee (ici, At 

0, c'est-a-dire le debut de la zone). 

# let fp = openTk 0 ; ; 

let lignel = frame create fp [] and ligne2 = frame create fp [] ; ; 
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let etiql = label create lignel [Text "Francs:"] 

and entreel = entry create lignel [TextWidth 10; Relief Sunken] 

and etiq2 = label create ligne2 [Text "Euros:"] 

and entree2 = entry create ligne2 [TextWidth 10; Relief Sunken] ; ; 

Nous creons maintenant les quatre composants de notre application : deux zones 
d'entree et deux « etiquettes » (label), qui sont des zones passives affichant un texte. 
Pour permettre l'arrangement «en carre» de ces composants (voir figure ci-dessous), 
nous creons egalement deux cadres, lignel et ligne2, qui servent de composants pere 
a etiql et entreel pour l'un, et etiq2 et entree2 pour l'autre. 

# let tauxl = ref 1.0 (* francs pour 1 franc *) 

and taux2 = ref 6.55957 (* francs pour 1 euro *) ; ; 

bind entreel [ [] , KeyRelease] 

(BindSet([], synchronise_zones entreel entree2 tauxl taux2));; 

bind entree2 [ [] , KeyRelease] 

(BindSet([], synchronise_zones entree2 entreel taux2 tauxl));; 

Ci-dessus, nous associons la fonction synchronise_zones a Pevenement «relacher une 
touche enfoncee» (KeyRelease) dans les deux zones d'entree. La fonction bind gere les 
associations de fonctions Caml a des evenements : elle prend en arguments le composant 
concerne, une liste d'evenements et de modificateurs (ici, [ [] , KeyRelease] , signifiant 
la relache d'une touche sans modificateurs particuliers), et une action a effectuer (ici, 
BindSet, signifiant la definition d'une nouvelle liaison ; on dispose aussi de BindRemove 
pour enlever toutes les liaisons, et de BindExtend pour raj outer une liaison). Nous avons 
choisi de lie Pevenement KeyRelease plutot que KeyPressed (appui d'une touche), afin 
que la fonction Caml soit appelee apres Pinsertion du caractere frappe dans la zone 
d'entree, et non pas avant, ce qui produirait des resultats visuellement faux. 



lignel 



etiql 



entreel 



# pack [etiql] [Side Side_Lef t] ; 
pack [entreel] [Side Side_Right] ; 
pack [etiq2] [Side Side_Lef t] ; 
pack [entree2] [Side Side_Right] ; 
pack [lignel; ligne2] 

[Side Side_Top; Fill Fill_X] ; 
mainLoop () ; ; 

Nous appelons pack cinq fois pour realiser l'arrangement en carre des composants 
decrit par la figure ci-dessus, puis langons la boucle d'interaction. 





etiq2 




entree2 




Iigne2 



Choix des devises par un menu 

II n'est pas difficile d'etendre notre convertisseur a d'autres devises que le franc et 
l'euro. Pour ce faire, nous ajoutons deux menus deroulants permettant de choisir les 
devises « source » et « cible » de la conversion. 

# let barre_de_menus = 

frame create fp [Relief Raised; BorderWidth (Pixels 2)] ; ; 

let bouton_source = 

menubutton create barre_de_menus 

[Text "Source"; Under linedChar 0] 

and bouton_cible = 
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menubutton create barre_de_menus 

[Text "Cible"; Under linedChar 0] ; ; 

let source = menu create bouton_source [] 

and cible = menu create bouton_cible [] ; ; 

menubutton configure bouton_source [Menu source] ; 

menubutton configure bouton_cible [Menu cible] ; 

pack [bouton_source ; bouton_cible] [Side Side_Lef t] ; ; 

La barre de menus se compose d'lm cadre (barre_de_menus), de deux «boutons a 
menus » (bouton_source et bouton_cible) dont l'effet est de derouler les menus cor- 
respondants, et enfin de deux composants de type «menu» (source et cible) qui 
contiennent les entrees des menus. Les menus sont pour l'instant vides ; nous allons les 
remplir dans le code qui suit. 

# let liste_de_devises = 

[ "Dollars US", 5.9389; "Dollars canadiens", 3.933046; 

"Euros", 6.55957; "Francs", 1.0; "Francs beiges", 0.162531; 
"Francs suisses", 4.116; "Lires", 0.00338617; "Livres", 9.552; 
"Marks", 3.354; "Pesetas", 0.0394061; "Yens", 0.05011 ];; 

do_list 

(function (nom, taux) -> 

menu add_command source 

[Label nom; 

Command(f unction () -> 

label configure etiql [Text(nom ~ ":")]; 

tauxl := taux; 

synchronise_zones entreel entree2 tauxl taux2 ())]) 
liste_de_devises ; 
do_list 

(function (nom, taux) -> 

menu add_command cible 

[Label nom; 

Command(f unction () -> 

label configure etiq2 [Text(nom ~ ":")]; 

taux2 := taux; 

synchronise_zones entree2 entreel taux2 tauxl ())]) 
liste_de_devises ; ; 



Pour chaque devise, nous ajoutons une entree dans le menu 
« Source » et une entree dans le menu « Cible ». Les actions as- 
sociees a ces entrees de menus changent le nom de la devise 
dans l'etiquette correspondante, puis ajustent le taux de con- 
version (tauxl ou taux2 respectivement), et enfin appellent 
synchronize_zones pour mettre a jour les montants afnches 
dans les zones d'entree. Les taux de conversion utilisent le franc 
comme devise de reference. 

# pack [barre_de_menus] [Side Side_Top; Fill Fill_X] ; 



Source 


CibLe | 


Francs: 






Dollars US 


Euros: 


Dollars canadiens 




Euros 




Francs 




Francs beiges 




Francs suisses 




Lires 




Livres 




flarks 


Pesetas 
Yens 



pack [lignel; ligne2] [Side Side_Top; Fill Fill_X] ; 
mainLoop () ; ; 
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11.4 Le jeu du taquin 




Pour conclure ce chapitre, nous ecrivons en CamlTk un jeu de taquin. Le taquin est 
un puzzle invente en 1879 par Sam Lloyd et constitue de pieces rectangulaires. L'une 
des pieces manque, ce qui permet de deplacer les autres pieces en les faisant glisser dans 
l'espace ainsi menage. Le but du jeu est bien sur de reconstituer l'image en faisant ainsi 
glisser les pieces. 

Ce petit jeu est l'occasion d'introduire un nouvel outil 
de placement des composants : la toile (canvas). Jusqu'ici, 
tous nos placements de composants s'effectuaient par la 
fonction pack, qui empile les composants les uns sur les 
autres. L'utilisation d'une toile permet de placer les com- 
posants en donnant leurs coordonnees (x, y) a l'interieur 
de la toile. C'est particulierement utile pour manipuler 
des composants de nature geometrique, tels que polygones, 
ovales, ou images numerisees (bitmaps). Les coordonnees 
des composants dans la toile peuvent etre changees a tout 
instant, ce qui permet de les deplacer a l'ecran. 

# let decoupe_image img nx ny = 

let 1 = imagephoto width img 

and h = imagephoto height img in 

let tx = 1 / nx and ty = h / ny in 
let pieces = ref [] in 
for x = 0 to nx - 1 do 
for y = 0 to ny - 1 do 

let piece = imagephoto create 

[Width (Pixels tx) ; Height (Pixels ty)] in 

imagephoto copy piece img 

[ImgFrom(x * tx, y * ty, (x+l)*tx, (y+l)*ty)]; 
pieces := piece :: Ipieces 
done 
done ; 

(tx, ty, tl Ipieces);; 

Nous commengons par une fonction qui charge une image au format GIF depuis un 
fichier et la decoupe en pieces rectangulaires. Les parametres nx et ny donnent le nombre 
de pieces horizontalement et verticalement. A l'aide des fonctions de manipulations 
d'image fournies par le module imagephoto de CamlTk, la fonction decoupe_image 
charge l'image depuis le fichier et la decoupe en nx * ny petites images rectangulaires. 
La premiere de ces images est alors abandonnee pour laisser de la place au « trou » du 
jeu de taquin ; les autres sont renvoyees en resultat, et vont constituer les pieces du 
taquin. 

La fonction remplir_taquin ci-dessous se charge de positionner les pieces du taquin 
dans une toile rectangulaire c passee en argument. Elle associe ensuite a l'evenement 
«clic souris» dans les pieces une fonction Caml qui permet de deplacer les pieces. 

Nous creons un composant trou de type rectangle pour representer l'emplacement 
restant libre sur le taquin. Ses coordonnees sont conservees dans les references trou_x et 
trou_y. La matrice (tableau bidimensionnel) taquin associe a chaque coordonnee (x, y) 
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le composant representant la piece qui se trouve a cet endroit. Nous la remplissons avec 
la liste de pieces passee en argument. Comme il manque exactement une piece pour 
rcmplir tout lc jcu, la dcrnicrc case de la matrice reste egale a trou. Chaque image 
de la liste pieces est transformed en element de toile et placee a sa position initiale 

par la fonction canvas create_image. Enfin, l'option Tags [Tag "piece"] associe a 

chaque image le nom symbolique piece ; nous l'utiliserons plus tard pour associer une 
action a l'evenement «clic souris» dans tous les pieces d'un coup. 

# let remplir_taquin c nx ny tx ty pieces = 
let trou_x = ref (nx - 1) 
and trou_y = ref (ny - 1) in 
let trou = 

canvas create_rectangle c 

(Pixels (!trou_x * tx)) (Pixels (!trou_y * ty)) 
(Pixels tx) (Pixels ty) [] in 
let taquin = make_matrix nx ny trou in 
let p = ref pieces in 
for x = 0 to nx - 1 do 
for y = 0 to ny - 1 do 
match !p with 

I n -> 0 

I piece : : reste -> 
taquin. (x) . (y) <- 

canvas create_image c 

(Pixels (x * tx)) (Pixels (y * ty)) 
[ImagePhoto piece; Anchor NW; Tags [Tag "piece"]]; 
p := reste 

done 
done ; 

let deplacer x y = 

let piece = taquin. (x) . (y) in 

canvas coords_set c piece 

[Pixels (!trou_x * tx) ; Pixels (! trou_y * ty)] ; 

canvas coords_set c trou 

[Pixels (x * tx) ; Pixels (y * ty) ; Pixels tx; Pixels ty] ; 

taquin. ( !trou_x) .( !trou_y) <- piece; 

taquin. (x) . (y) <- trou; 

trou_x := x; trou_y := y in 
let jouer ei = 

let x = ei.ev_MouseX / tx and y = ei.ev_MouseY / ty in 

if x = !trou_x && (y = !trou_y - 1 II y = !trou_y + 1) 

I I y = !trou_y && (x = !trou_x - 1 II x = !trou_x + 1) 

then deplacer x y in 

canvas bind c (Tag "piece") [ [] , ButtonPress] 

(BindSet ([Ev_MouseX; Ev_MouseY] , jouer));; 

La fonction deplacer ci-dessus prend la piece en position (x, y) et la fait glisser a la 
place du trou. Elle suppose que la piece (x, y) est adjacente au trou. Elle se contente 
d'echanger les coordonnees de la piece et celles du trou, tout en effectuant la meme 
permutation dans la matrice taquin. 

L'appel a canvas bind assure que la fonction jouer est appelee a chaque fois 
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que l'utilisateur clique sur un des elements de la toile qui porte le nom symbolique 
piece, c'est-a-dire sur l'une des images composant les pieces du taquin. La fonction 
jouer determine les coordonnees du clic souris a partir de l'enregistrement ei fourni 
par CamlTk, verifie que le clic porte bien sur une piece adjacente au trou, et finalement 
deplace cette piece. 

# let rec permutation = function 

I [] -> [] 

I 1 -> let n = random int (list_length 1) in 

let (element, reste) = partage 1 n in 
element : : permutation reste 
and partage 1 n = 
match 1 with 

I [] -> failwith "partage" 
I tete : : reste -> 

if n = 0 then (tete, reste) else 

let (element, reste') = partage reste (n - 1) in 
(element, tete :: reste');; 

Pour rendre le jeu interessant, il faut melanger initialement les pieces. La fonction 
permutation ci-dessus effectue une permutation aleatoire d'une liste. Elle choisit au 
hasard un element de la liste, puis permute recursivement les autres elements de la 
liste, et remet l'element choisi en tete du result at. 

# let taquin nom_fichier nx ny = 

let f enetre_principale = openTk () in 

let img = imagephoto create [File nom_f ichier] in 

let c = canvas create f enetre_principale 

[Width(Pixels (imagephoto width img)) ; 

Height (Pixels (imagephoto height img))] in 

let (tx, ty, pieces) = decoupe_image img nx ny in 
remplir_taquin c nx ny tx ty (permutation pieces) ; 
pack [c] [] ; 
mainLoop 0 ; ; 

11.5 Pour aller plus loin 

CamlTk est une bibliotheque d'une grande richesse, et la presentation que nous en 
avons faite dans ce chapitre est forcement incomplete. Nous esperons cependant qu'elle 
aura convaincu le lecteur de la facilite avec laquelle on peut doter une application Caml 
d'une interface homme-machine de bonne facture. 

Pour une presentation plus complete de la boite a outils Tk, on se reportera a 
l'ouvrage de John Ousterhout, Tel and the Tk toolkit, Addison- Wesley, ou a celui de 
Matt Welch, Practical programming in Tel and Tk, Prentice-Hall. 



II 

Exemples complets 



Avert issement 



Enfin de vrais programmes ! 

- Pourquoi vrais ? Les programmes precedents etaient-ils faux ? 



ANS LA premiere partie de ce livre, nous avons aborde tous les mecanismes 
essentiels du langage Caml. Dans cette deuxieme partie, nous developpons 
des exemples de programmes complets, dans le but de montrer comment ap- 
pliquer toute la puissance du langage a la resolution de problemes de programmation. 
Nos programmes sont de « vrais » programmes : ils sont issus de problemes ayant une 
reelle importance pratique et se presentent sous la forme d'applications independantes, 
utilisables en dehors du systeme interactif. 

Chaque chapitre commence par une description intuitive de ce que le programme 
d'exemple doit faire. Nous introduisons ensuite les notions necessaires pour rendre cette 
specification precise, ainsi que les principaux algorithmes resolvant le probleme. Nous 
implementons ensuite la solution en Caml, sous la forme d'un programme independant 
decoupe en modules. Les chapitres se terminent par un paragraphe «Pour aller plus 
loin», contenant en particulier des references bibliographiques a l'intention du lecteur 
qui desire en savoir plus. 

Les exemples proviennent de divers domaines de l'informatique et supposent que le 
lecteur est deja vaguement familier avec les domaines concernes. Notre but n'est pas de 
fournir une introduction complete, partant de zero, a ces domaines (plusieurs livres n'y 
suffiraient pas), mais de montrer le langage Caml a Pceuvre. Les notions supposees con- 
nues font cependant partie de la culture informatique de base. Par exemple, le chapitre 
consacre a la simulation d'un microprocesseur suppose quelques notions elementaires 
d'architecture des machines et une experience (meme minime) de la programmation 
en assembleur. De meme, le chapitre consacre a la compilation d'un langage imperatif 
simplifie suppose quelques connaissances en Pascal. A chaque fois, nous fournirons des 
explications sur le probleme precis qui nous interesse et sur les techniques exactes que 
nous appliquerons ; mais nous supposerons connue la problematique d'ensemble. 

Nous utiliserons la presentation suivante pour les programmes Caml : les interfaces 
et les implementations des modules sont entremelees avec nos commentaires ; chaque 
morceau de code Caml est surtitre par le nom du fichier auquel il appartient. Par 
exemple, void un morceau du fichier toto.ml : 

Fichier tot o .ml 

let x = 1 + 2; ; 
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Avertissement 



On reconstitue le programme tout entier en recollant tous les morceaux de fichiers dans 
leur ordre d'apparition. A la fin de chaque chapitre, on explique comment compiler et 
executer le programme complet. 

Comme pour la premiere partie, tous les exemples presentes ont ete automatique- 
ment extraits du texte, puis compiles et executes. Enfin, ces exemples sont disponibles 
sur le Web a l'adresse suivante: http://caml.inria.fr/Examples/. 



12 

Demonstration de propositions 



Mais ou et done or ni car non si alors . . . 




ecaniser en partie le raisonnement mathematique et transformer 
ainsi les ordinateurs en outils d'aide a la demonstration de theoremes 
est Pun des plus vieux projets de l'informatique. Dans ce chapitre, nous 



programmons un demonstrateur pour une classe restreinte de theoremes, les formules 
propositionnelles du premier ordre. Ce chapitre constitue egalement une initiation a la 
logique mathematique elementaire. De surcroit, nous completerons nos connaissances 
sur Panalyse syntaxique et lexicale, en introduisant un generateur d'analyseurs lexi- 
caux et les concepts de mot-cle reserve et de priorite des operateurs. Pour expliquer 
le generateur d'analyseurs lexicaux, nous serons aussi obliges d'introduire les tables de 
hachage, une structure de donnees tres utile. 



12.1 La logique mathematique 

La logique mathematique traite de la veracite des phrases mathematiques et de la 
validite des raisonnements. Elle permet de repondre a des questions comme : sachant 
que la phrase P est vraie et que la phrase Q est fausse, est-ce que la phrase obtenue 
en disant « P et Q » est une phrase vraie ? Un exemple plus complexe : le raisonnement 
suivant est-il correct ? 

Puisque P est vraie et que Q est fausse, 

P n'est done pas une condition necessaire pour que Q soit vraie. 

(Reponse a la section 12.7.) La logique mathematique permet de repondre a ces ques- 
tions en definissant precisement les operations autorisees sur les phrases mathematiques 
et la signification de ces operations. Une operation licite est par exemple de relier deux 
phrases mathematiques par «et», comme dans «2 est pair et 2 est un nombre pre- 
mier ». La logique mathematique fournit done un sens precis a tous les petits mots 
qu'on emploie dans les raisonnements, comme «donc», «or», «car», «et», «ou», etc. 

La logique definit aussi un calcul sur les phrases mathematiques, independant de leur 
signification reelle, qui ne s'attache qu'a la verite des phrases. On deduit ainsi la verite 
d'une phrase complexe par un simple calcul, a partir de la verite de ses composantes. 
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Par exemple, sachant que P est vraie et que Q est fausse, on saura calculer si le contraire 
de la phrase «P ou Q » est vrai ou faux. 

Les propositions 

La premiere etape est done de definir ce qu'on entend par phrase mathematique. 
En effet, tout enonce n'est pas forcement une phrase mathematique. Le critere minimal 
est la non-contradiction : une phrase mathematique peut etre vraie ou fausse, mais on 
exige qu'elle ne soit pas a la fois vraie et fausse. Un exemple paradigmatique de phrase 
contradictoire est le paradoxe du menteur : e'est la simple phrase « Je mens». En effet, 
cette phrase est a la fois vraie et fausse. On le demontre facilement en la supposant 
d'abord vraie et en montrant qu'elle est alors forcement fausse, puis en la supposant 
fausse et en montrant qu'alors elle est vraie. 

1. Supposons la phrase vraie. C'est done qu'il est vrai que la personne qui parle 
ment, qu'elle ne dit pas la verite. Done cette personne enonce des phrases fausses 
et done la phrase qu'elle vient d'enoncer, « Je mens», est fausse. 

2. Supposons la phrase fausse. La phrase « Je mens» est done inexacte. C'est done 
que le locuteur ne ment pas et dit la verite. C'est done que la phrase qu'il enonce 
est vraie. 

Dans les deux cas, la phrase est a la fois vraie et fausse : ce n'est done pas une phrase 
mathematique. 

Une phrase acceptable est appelee proposition. Une proposition peut done etre soit 
vraie soit fausse. Les valeurs «vrai» et «faux» sont appelees valeurs de verite; nous 
les noterons en abrege v et /. 

Pour ceux qui penseraient — a tort — que le paradoxe du menteur vient sans 
doute de confusions dues a l'imprecision du langage courant, on peut prendre d'autres 
exemples, formules dans un langage tout a fait mathematique cette fois-ci. Par exemple : 
«l'ensemble de tous les ensembles qui ne sont pas elements d'eux-memes est element 
de lui-meme». Par le meme raisonnement que pour le paradoxe du menteur, on voit 
que cet enonce est a la fois vrai et faux. Notez le lien avec les definitions recursives 
qui ne sont pas bien fondees : nous avons deja souligne qu'une phrase qui presente 
des autoreferences est susceptible de mener au non-sens, si Ton n'y prend pas garde 
(section 2.1). 

Les connecteurs propositionnels 

Les operations que nous allons definir sur les propositions sont appelees connecteurs 
propositionnels, puisqu'elles relient des propositions pour fabriquer d'autres proposi- 
tions. Nous commencons par le « contraire » d'une proposition, qu'on appelle aussi sa 
negation. C'est le connecteur «non»: si P est une proposition, alors non P est une 
proposition, qui est fausse si P est vraie et qui est vraie si P est fausse. Techniquement, 
la proposition non P est souvent notee ^P ou encore P. Pour ne pas multiplier les 
notations, nous n'utiliserons pas les noms techniques des connecteurs, mais leur nom 
vulgaire. Ainsi, nous continuerons a noter non le connecteur On definit formellement 
le connecteur non en envisageant toutes les valeurs de verite possibles de son argument 
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et en donnant pour chacune d'elles la valeur de verite correspondante de non P. On 
ecrit done cette definition sous la forme d'un tableau de cas, qu'on nomme « table de 
verite » : 



p 


non P 


V 


f 


f 


V 



Cette table comprend sur chaque colonne une proposition et ses differentes valeurs 
de verite possibles. La premiere ligne dresse ainsi la liste de toutes les propositions 
decrites par la table. Les autres lignes donnent les valeurs de verite de toutes les propo- 
sitions de fagon coherente, e'est-a-dire selon les valeurs prises par les propositions de 
base. La table precedente comprend done deux lignes, puisqu'il y a deux cas possibles 
pour P. La deuxieme ligne indique done que lorsque P vaut v, non P vaut /, et la 
troisieme ligne que non P vaut v quand P vaut /. 

Nous definissons maintenant des operations binaires, le «et» (la conjonction) et le 
«ou» (la disjonction). Si P est une proposition et Q est une proposition, alors P et Q 
est une proposition. Par definition, P etQ n'est vraie que si P et Q sont simultanement 
vraies. La proposition P et Q est notee P A Q en mathematiques. L'operation et est 
aussi definie par une table de verite, mais le tableau comporte plus de lignes que pour 
l'operation non, car il faut envisager tous les cas possibles pour P et pour Q, e'est-a-dire 
quatre cas. 



p 


Q 


P etQ 


V 


V 


V 


V 


f 


f 


f 


V 


f 


f 


f 


f 



Remarquez que P etQ est fausse des que l'une des propositions FouQ est fausse. 

Le «ou» est symetrique du «et», en remplagant vrai par faux: par definition, 
P ouQ n'est fausse que si P et Q sont simultanement fausses. La proposition P ouQ 
est notee P V Q en mathematiques. 
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Remarquez que P ouQ est vraie des que l'une des propositions P ou Q est vraie. 

Ce sont les seules definitions necessaires en logique elementaire. Toutes les autres 
constructions du raisonnement s'expriment en fonction de celles-ci. Cette economie de 
moyens est l'une des beautes de la logique. Toute la theorie est construite sur les notions 
elementaires et intuitives de valeur de verite, de «et», de «ou» et de «non». 

Remarques sur les connecteurs « et » et « ou » 

II faut noter que le « ou » de la logique est inclusif, e'est-a-dire que P ouQ est encore 
vraie si P et Q sont toutes les deux vraies. Nous venons de le voir, P ou Q est vraie 
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des que l'une des propositions est vraie ; si les deux propositions P et Q sont vraies, 
P ou Q est a fortiori vraie, on serait tente de dire « encore plus vraie », puisqu'il y a 
deux raisons pour qu'elle soit vraie. La difficulte vient de ce que l'emploi de « ou » dans 
la langue commune n'est pas toujours celui-la. En realite la semantique du « ou » dans 
la langue parlee est assez floue. Considerez les phrases suivantes : 

Fromage ou dessert. 

Defense de fumer ou de crachcr. 

Mange ta soupe ou tu auras une fessee. 

Dans « fromage ou dessert » le ou est exclusif: on aura du fromage, ou bien du 
dessert, mais pas les deux. En revanche, le «ou» de « fumer ou cracher» a le sens des 
mathematiques : il est inclusif. En effet, il est interdit de fumer, il est interdit aussi 
de cracher, mais il est « encore plus» interdit de cracher tout en fumant. Finalement, 
le « ou » de « mange ta soupe ou tu auras une fessee » a le sens d'une deduction ; on 
pourrait le remplacer par sinon: « mange ta soupe sinon tu auras une fessee ». C'est le 
sens aussi d'un «si alors» : «si tu ne manges pas ta soupe alors tu auras une fessee ». 
Cette signification particuliere du « ou » n'est pas un hasard, c'est au contraire l'exacte 
definition mathematique de Pimplication. Le raisonnement si P alors Q est synonyme 
de (non P) ouQ. Par exemple «si nous ne nous hatons pas nous serons en retard » est 
synonyme de « hatons- nous ou nous serons en retard ». 

L 'implication 

Le raisonnement «si alors » est appele implication en logique. L'implication est 
traditionnellement notee => : si P et Q sont des propositions, alors par definition P =4> Q 
est une proposition, qui a la meme valeur de verite que (non P) ou Q. La proposition 
P =4> Q se lit « P implique Q ». 

Nous avons maintenant defini precisement toutes les operations de base sur les 
propositions. II nous reste a montrer les methodes de calcul sur ces operations. 

12.2 Calculs de tables de verite 

Nous commengons par un calcul «a la main», qui nous permettra de comprendre 
comment va marcher le programme de demonstration automatique. 

Une premiere demonstration 

Nous allons etablir la table de verite de l'implication. Plus precisement, nous 
demontrons que la proposition P => Q a la table de verite suivante : 
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Nous avons defini P => Q comme (non P) ou Q, ce qui signifie que ce sont les memes 
propositions, ou encore qu'elles ont toujours la meme valeur de verite, quelles que 
soient les valeurs de verite des propositions P et Q. Le calcul de la table de verite de 
Pimplication est done tres simple : on precede par etapes dans une table de verite ou Ton 
a enumere toutes les possibilites pour P et Q : on calcule d'abord la proposition non P 
dans tous les cas de figures, puis le «ou» de non P et de Q. On obtient finalement : 
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Constatez que Pimplication est done vraie si l'hypothese est fausse (deux dernieres 
lignes du tableau). Ceci correspond a l'intuition : lorsqu'on a un theoreme vrai P =>- Q, 
mais qu'on n'a pas l'hypothese P, alors on ne peut evidemment rien en deduire sur Q, 
puisque dans ce cas Q peut aussi bien etre vraie que fausse (toujours les deux dernieres 
lignes du tableau). D'autre part, il est impossible d'attribuer une autre valeur de verite 
a l'implication lorsque l'hypothese n'est pas vraie. En effet, si l'on mettait / a la place 
de v dans les deux dernieres lignes de la colonne de (non P) ouQ, cela signifierait qu'un 
theoreme P Q devient faux des que son hypothese est fausse, ce qui serait absurde. 
On resume parfois cette situation en disant « le faux implique n'importe quoi » ; nous 
preferons la formulation « on ne peut rien deduire d'un theoreme dont l'hypothese n'est 
pas verifiee», ou encore «un theoreme reste vrai meme quand il ne s'applique pas». 

L 'equivalence 

Vous connaissez sans doute deja un autre connecteur propositionnel dont nous 
n'avons pas parle : le «si et seulement si», qu'on appelle l'equivalence et qu'on note 
d'habitude <^>. Intuitivement, deux propositions sont equivalentes quand elles sont tou- 
jours vraies ou fausses en meme temps. Par exemple, si P Q est vraie, on deduit 
immediatement la valeur de verite de Q si l'on connait celle de P : quand P est vraie 
on en deduit que Q est vraie et quand P est fausse on en deduit que Q est fausse. 

Nous n'avons pas defini ce connecteur car il s'exprime en fonction de ceux que nous 
connaissons deja. Vous savez peut-etre que P ^ Q est une double implication, comme 
le suggere la double fleche. En effet P 44> Q signifie que P implique Q (la proposition 
directe) et que de plus Q implique P (la proposition reciproque). En fait, on definit 
l'equivalence par cette propriete : la proposition P 44> Q vaut, par definition, ce que 
vaut la proposition (P Q) et (Q =>■ P). Comme ci-dessus, nous etablissons la table 
de verite de l'equivalence, en procedant par etapes au calcul de la table de verite de la 
proposition complexe (P =>■ Q) et (Q P). Nous obtenons : 
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Cette table de verite correspond a l'intuition : l'equivalence de deux propositions 
n'est vraie que dans le cas ou les deux propositions ont la meme valeur de verite. D'un 
point de vue logique, des propositions equivalentes sont indiscernables : elles sont done 
egales au sens logique. En effet, la logique ne distingue les propositions que par leur 
valeur de verite, pas par leur texte. Deux propositions equivalentes ne sont done pas 
logiquement differentes. C'est le meme phenomene qu'en arithmetique, ou l'on ne peut 
distinguer 1 + 1 de 2, bien que ces deux expressions ne soient pas syntaxiquement les 
memes. 

On sent bien que le calcul des tables de verite est automatisable et qu'un programme 
remplirait facilement les colonnes des tableaux a notre place, en calculant ainsi la valeur 
de verite d'une proposition complexe en fonction des propositions qui la composent. 
Le programme engendrerait plus facilement que nous toutes les combinaisons possibles 
pour les differentes propositions elementaires qui interviennent. En effet cette combina- 
toire augmente tres vite : pour 2 propositions P et Q nous avons 4 lignes dans le tableau, 
mais pour 3 il en faudrait 8, pour 4 propositions 16 lignes, et ainsi de suite (pour n 
propositions 2™ lignes). Notre demonstrateur de theoremes fonctionne exactement selon 
ce principe. 

12.3 Le principe des demonstrations 

Notre demonstrateur est restreint aux theoremes de logique elementaire. Or, un 
theoreme n'est rien d'autre qu'une proposition qui est toujours vraie. Ceci conduit 
d'ailleurs a une petite difficulte : en mathematiques, on n'ecrit jamais qu'une proposition 
est vraie. On se contente de l'ecrire simplement, ce qui sous-entend qu'elle est vraie. 
On ecrira par exemple : 

Si un triangle a trois angles de 60 degres alors ses trois cotes ont meme 
longueur. 

et non pas : 

L 'implication «si un triangle . . . alors ...» est vraie. 

En revanche, on precise explicitement qu'une proposition est fausse. 

Le but du demonstrateur est done de montrer qu'une proposition est toujours 
vraie. Pour cela, il demontre que pour toutes les valeurs possibles des propositions 
elementaires, la proposition a demontrer a toujours la valeur de verite «vrai». Con- 
ceptuellement, cela correspond a etablir la table de verite de la proposition et a verifier 
que la colonne de droite, celle de la proposition a demontrer, ne contient que des valeurs 
v. 

En logique, une proposition toujours vraie est aussi appelee une tautologie. Nous 
dirons done que notre programme est un demonstrateur de tautologies. Nous lui ajou- 
tons un raffinement supplement aire : au cas oil la proposition qui lui est soumise n'est 
pas une tautologie, le programme renvoie une refutation, e'est-a-dire un choix de valeurs 
de verite pour les propositions elementaires qui rend fausse la proposition soumise. 

L' architecture du programme suit exactement la methode des tables de verite : pour 
calculer les valeurs de verite des lignes de la table nous allons ecrire un sous-programme 
qui calcule la valeur de verite d'une proposition en fonction de ses composantes (les 
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«et», «ou», «non» qui interviennent) ; ensuite, pour produire l'ensemble des lignes 
de la table, nous ecrirons une autre fonction qui envisagera l'ensemble des valeurs 
possibles des propositions elementaires. Pour simplifier l'utilisation du demonstrateur, 
nous ferons finalement un analyseur syntaxique, qui nous permettra d'entrer facilement 
les propositions. Cela devient presque de la routine maintenant : nous definirons le type 
des propositions et l'analyseur syntaxique analysera une chaine de caracteres, qu'il 
transformera en une valeur du type des propositions. 

12.4 Representation et verification des propositions 

Nous commencons par le module prop, qui definit le type des propositions et 
implemente les fonctions devaluation d'une proposition et de generation de la com- 
binatoire des possibilites decrites ci-dessus. 

Le type des propositions 

Le type des propositions comporte des constructeurs pour les connecteurs de base 
Non, Et, Ou, et des constructeurs pour les connecteurs dermis a partir des connecteurs de 
base, Implique et Equivalent. Pour representer les propositions elementaires comme 
P ou Q, qu'on appelle aussi variables propositionnelles, on fournit le constructeur 
Variable qui prend en argument une chaine de caracteres (le nom de la proposition). 
Ces variables representent les propositions dont on ne connait pas la valeur et dont les 
differentes valeurs de verite forment les lignes des tables de verite. Une variable est done 
une proposition indefinie, representee par un simple nom. Une variable qui intervient 
dans une proposition R est dite variable libre de R. Par exemple, P est une variable 
libre de la proposition P ou Q. Plus precisement, la proposition P ouQ comporte deux 
variables libres, P et Q. 

Pour des raisons de commodite, on a ajoute deux constructeurs constants parti- 
culiers Vrai et Faux, qui representent deux propositions particulieres, la proposition 
toujours vraie et la proposition toujours fausse. Ces propositions correspondent aux 
valeurs de verite, considerees comme des propositions. 

Fichicr prop. ml i 

type proposition = 

I Vrai 

I Faux 

I Non of proposition 

I Et of proposition * proposition 

I Ou of proposition * proposition 

I Implique of proposition * proposition 

I Equivalent of proposition * proposition 

I Variable of string; ; 

exception Refutation of (string * bool) list;; 
value verif ie_tautologie : proposition -> string list -> unit 
and variables_libres : proposition -> string list;; 
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Le module prop exporte deux fonctions : verif ie_tautologie, qui verifie 
qu'une proposition est une tautologie ou sinon declenche l'exception Refutation, 
et variables_libres, qui calcule la liste des variables libres d'une proposition. 

L'evaluateur de propositions 

Une proposition comporte done parfois des variables libres. Mais pour calculer la 
valeur de verite d'une proposition, il faut absolument connaitre la valeur de ses vari- 
ables libres. Comme d'habitude, notre machine ne peut calculer qu'en connaissant la 
valeur de toutes les entites qui interviennent dans l'expression a calculer (cf. Pexemple 
«x — x» de la section 1.3). Nous utiliserons done des liaisons qui associent une valeur 
booleenne a toute variable libre de la proposition etudiee. Etant donne un ensemble de 
liaisons de variables, revaluation d'une proposition s'opere en traduisant simplement 
les connecteurs de la logique a l'aide des operateurs logiques de Caml : not, kk, I I , =. 

Fichicr prop . ml 

let rec evalue_dans liaisons = function 

I Vrai -> true 

I Faux -> false 

I Non p -> not (evalue_dans liaisons p) 

I Et (p, q) -> (evalue_dans liaisons p) kk (evalue_dans liaisons q) 
I Du (p, q) -> (evalue_dans liaisons p) I I (evalue_dans liaisons q) 
I Implique (p, q) -> 

(not (evalue_dans liaisons p)) II (evalue_dans liaisons q) 
I Equivalent (p, q) -> 

evalue_dans liaisons p = evalue_dans liaisons q 
I Variable v -> assoc v liaisons;; 



La fonction evalue_dans oblige done a faire la relation entre les connecteurs de la 
logique et les operateurs logiques de Caml. II faudrait demontrer, en analysant tous les 
cas possibles des propositions arguments des connecteurs, que le « non » de la logique 
correspond bien au not de Caml, de meme que « et » correspond a kk et « ou » a I I . 
Nous supposerons cette demonstration faite, dans la mesure oil cette traduction est 
tres naturelle et intuitive. L'implication est evaluee en utilisant sa definition : P =^ Q 
se calcule comme (non P) ouQ. Inequivalence est evaluee en verifiant simplement que 
ses deux arguments ont la meme valeur de verite. 

Le verificateur de propositions 

Le principe du verificateur est d'evaluer la proposition pour toutes les valeurs pos- 
sibles de ses variables libres : si l'une des evaluations renvoie faux, alors la proposition 
n'est pas une tautologie. On signale ce fait en declenchant l'exception Refutation avec 
pour argument une liste de paires (chaine, booleen) decrivant l'ensemble des valeurs 
attributes aux variables qui ont permis de calculer la valeur de verite / pour la proposi- 
tion. Cette liste constitue bien une refutation de la proposition, puisqu'elle montre par 
un exemple que la proposition n'est pas universellement vraie. 
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Fichier prop . ml 

let rec verif ie_lignes proposition liaisons variables = 

match variables with 

I [] -> 

if not evalue_dans liaisons proposition 
then raise (Refutation liaisons) 
I var : : autre s -> 

verif ie_lignes proposition ((var, true) : : liaisons) autres; 
verif ie_lignes proposition ((var, false):: liaisons) autres;; 

let verif ie_tautologie proposition variables = 
verif ie_lignes proposition [] variables;; 



La fonction verif ie_lignes verifie toutes les lignes de la table de verite, sans la con- 
struire effectivement. Elle prend en argument une proposition, un ensemble de liaisons 
et la liste des variables libres de la proposition. Elle lie alors les variables libres a des 
valeurs true ou false, puis evalue la proposition. En effet, la regie [] -> precede a 
revaluation de la proposition, lorsqu'il n'y a plus de variables a lier. La seconde regie 
correspond au cas ou il y a des variables a lier ; elle execute une sequence de deux 
appels recursifs a verif ie_lignes, en liant la premiere variable rencontree d'abord a 
true, puis a false. Ce programme assure done que toutes les combinaisons possibles 
seront envisagees et si la verification ne declenche jamais l'exception Refutation on 
aura effectivement prouve que la proposition s'evalue toujours en true dans toutes 
les liaisons possibles de ses variables. La fonction verif ie_tautologie se contente 
d'appeler verif ie_lignes avec un ensemble de liaisons initialement vide. 
Dans un style apparemment plus «fonctionnel», on ecrirait : 

let rec verif ie_lignes proposition liaisons = function 
I [] -> 

evalue_dans liaisons proposition I I raise (Refutation liaisons) 
I var : : autres -> 

verif ie_lignes proposition ((var, true) : : liaisons) autres && 
verif ie_lignes proposition ((var, false):: liaisons) autres;; 

Cette version n'est pas plus claire que la precedente : elle est trompeuse car bien qu'elle 
semble calculer un booleen, son resultat n'est pas interessant. En effet, elle retourne 
toujours le booleen true si la proposition est une tautologie, ou leve une exception si la 
proposition est refutable. C'est done bien une procedure, puisqu'elle fonctionne par ef- 
fets : l'effet attendu est soit « evaluation reussie», soit un declenchement d'exception. II 
ne sert a rien de la deguiser en fonction ... Si Ton renonce a renvoyer une refutation de 
la proposition analysee, il est possible d'ecrire une vraie fonction qui calcule vraiment 
un booleen. Malheureusement on perd la liaison des variables qui a prouve que la propo- 
sition n'est pas une tautologie et il faut alors ecrire une autre fonction, completement 
analogue, pour renvoyer une refutation. Cet exemple nous montre un autre interet 
des exceptions : dans certains cas une fonction peut calculer en fait deux resultats de 
type different, l'un vehicule par le mecanisme normal des appels de fonctions, l'autre 
transports par une exception (verif ie_lignes calcule un booleen dans le cas d'une 
tautologie et une liste d'association (nom de variable, valeur booleenne) dans le cas 
contraire) . 
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Une remarque de complexite : comme nous l'avons deja vu, le nombre de lignes 
d'une table de verite est 2 n , oun est le nombre de variables qui interviennent dans la 
table. Notre fonction verif ie_tautologie suit exactement la methode des tables de 
verite ; elle a done une complexite exponentielle. Ce n'est pas tres grave pour nous, car 
nous nous limiterons a trois variables au plus. C'est un probleme actuellement ouvert 
que de savoir s'il existe des algorithmes d'une meilleure complexite que le notre pour 
calculer la table de verite d'une formule. Dans le pire des cas on ne sait evidemment 
pas faire mieux, mais dans certains cas particuliers, on parvient a calculer les tables de 
verite de formules ou interviennent des centaines, voire des milliers de variables, ce qui 
est absolument hors de portee de notre programme. On utilise pour cela des structures 
sophistiquees de partage de tables de verite, comme par exemple les binary decision 
diagrams. 

Calcul des variables libres 

Pour appeler la fonction verif ie_tautologie, nous devons disposer d'une fonction 
qui determine l'ensemble des propositions elementaires d'une proposition, ce que nous 
appelons aussi ses variables libres. La liste des variables libres s'obtient facilement par 
un parcours recursif de la proposition, a la recherche de sous-propositions de la forme 
Variable v. 

Fichier prop . ml 

let rec variables accu proposition = 
match proposition with 

I Variable v -> if mem v accu then accu else v : : accu 
I Non p -> variables accu p 

I Et (p, q) -> variables (variables accu p) q 

I Du (p, q) -> variables (variables accu p) q 

I Implique (p, q) -> variables (variables accu p) q 

I Equivalent (p, q) -> variables (variables accu p) q 

I _ -> accu; ; 

let variables_libres proposition = variables [] proposition; ; 

La seule difficulte est que les variables ne doivent pas etre repetees dans la liste resultat. 
Par exemple, si on cherche les variables de la proposition P et P, on va rencontrer deux 
fois le terme (Variable "P"). Pourtant, la chaine "P" ne doit apparaitre qu'une fois 
dans le resultat de variables_libres. C'est pourquoi, lorsqu'on rencontre Variable 
v, on teste si v n'appartient pas deja a la liste des variables collectees jusqu'a present 
(a l'aide de la fonction predefinie mem, qui se comporte comme la fonction membre de la 
section 7.3). La fonction variables maintient done un accumulateur des variables deja 
collectees : c'est l'argument accu, qu'on gere soigneusement lors des appels recursifs. 
Par exemple, dans le cas d'un operateur binaire, comme et, on appelle recursivement 
variables sur le deuxieme argument de l'operateur, mais avec un accumulateur obtenu 
en collect ant les variables du premier argument : 

Et (p, q) -> variables (variables accu p) q 

La fonction principale variables_libres se reduit a l'appel de variables avec un 
accumulateur initialement vide. 
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12.5 Syntaxe concrete des propositions 

Nous definissons maintenant la syntaxe concrete des propositions, et les fonctions 
qui transforment la syntaxe concrete en syntaxe abstraite. Reprenant l'approche du 
chapitre 9, nous allons proceder en deux temps : analyse lexicale, pour obtenir une suite 
de lexemes a partir d'une suite de caracteres, puis analyse syntaxique, pour construire 
un arbre de syntaxe abstraite a partir d'une suite de lexemes. 

L'analyseur lexical 

L'analyseur lexical dont nous avons besoin est tres proche de celui du chapitre 9 : il 
doit savoir supprimer les blancs, reconnaitre les identificateurs (noms de variables) et 
distinguer les symboles speciaux comme les parentheses. Cependant, nous ne pouvons 
pas reutiliser tel quel l'analyseur du chapitre 9. D'une part, nous avons besoin de 
reconnaitre des lexemes formes d'une suite de symboles, comme par exemple => ou 
<=>. D'autre part, nous voulons introduire la notion de mot-cle reserve. 

Rappelons qu'un mot-cle est une suite de caracteres qui a la forme d'un identifi- 
cateur, mais qui joue un role special dans le langage, par exemple comme operateur 
infixe ou pour introduire des constructions du langage. Ainsi, if, then, else sont des 
mots-cles du langage Caml. De meme, vrai, faux, et, ou, non sont des mots-cles de la 
syntaxe concrete des propositions. 

Un mot-cle est dit reserve s'il ne peut pas etre employe comme identificateur. Par 
exemple, en Caml, il est impossible d'employer if comme un nom de variable : une 
phrase comme let if = 3 est syntaxiquement incorrecte. Le mot-cle if est done 
reserve en Caml (ainsi que tous les autres mots-cles). En revanche, le mini-Logo du 
chapitre 9 n'a pas de mots-cles reserves : on ecrit sans probleme la procedure 

pour carre : repete 

repete 4 [av : repete td 90] . 

en utilisant ainsi l'identificateur repete a la fois comme mot-cle et comme nom de 
variable. Dans le cas de mini-Logo ce n'est pas catastrophique, puisque les variables 
sont explicitement differenciees par le symbole « : » qui les precede. Mais un langage 
comme PL/1 n'a pas cette convention et pourtant ne reserve aucun mot-cle, autorisant 
done des phrases comme : 

if then = else then else = if else then = if 

Comme on le voit sur cet exemple, ne pas reserver les mots-cles peut conduire a des 
programmes vraiment illisibles. Nous allons done reserver les mots-cles de la syntaxe 
concrete des propositions. Les changements a apporter a l'analyseur lexical sont min- 
imes : lorsqu'on a reconnu une suite de caracteres qui a la forme d'un identificateur, il 
faut tester si cette suite de caracteres est un mot-cle ou non et renvoyer des lexemes 
differents selon le cas. Par exemple, ayant lu true, qui n'est pas un mot-cle, on ren- 
verra le lexeme (Ident "true") ; mais si on lit ou, on renverra le lexeme (MC "ou"). 
Le constructeur MC est l'abreviation de « mot-cle ». 

Autant les conventions lexicales de base (qu'est-ce qu'un entier, qu'est-ce qu'un iden- 
tificateur, . . . ) sont souvent les memes d'un langage a un autre, autant les mots-cles 
sont hautement specifiques au langage. Dans le but de rendre notre analyseur lexi- 
cal reutilisable par la suite, pour d'autres langages que les propositions, nous n'allons 
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pas mettre «en dur» la liste des mots-cles dans le code de l'analyseur. Au contraire, 
l'analyseur va prendre en parametre la liste des mots-cles et renvoyer une fonction 
d'analyse lexicale (de type char stream -> lexeme stream) specialised pour cette liste 
de mots-cles. La fonction principale qui fait correspondre une fonction d'analyse a une 
liste de mots-cles est plus qu'un analyseur lexical, c'est toute une famille d'analyseurs 
lexicaux en puissance. C'est pourquoi nous l'appelons «generateur d'analyseurs lexi- 
caux», ou « analyseur lexical universel». Les mots «generateur» et «universel» sont 
un peu forts car cette fonction impose des conventions lexicales fixes ; elle n'est done 
pas « universelle » et ne remplace en aucun cas un veritable generateur d'analyseurs 
comme camllex (cf. le chapitre 7 du Manuel de reference du langage Caml). Pourtant 
cet analyseur lexical «universel» sufflra amplement aux besoins de ce livre : c'est le 
dernier analyseur lexical que nous ecrirons, par la suite nous le reutiliserons tel quel 
pour tous les langages dont nous aurons besoin. 

L'analyseur lexical «universel» se presente sous la forme d'un module, lexuniv, 
dont voici l'interface : 

Fichier lexuniv. mli 

type lexeme = 

I MC of string 

I Ident of string 

I Entier of int ; ; 
value construire_analyseur : 

string list -> (char stream -> lexeme stream) ; ; 



On trouvera une implementation de ce module a la fin de ce chapitre (section 12.8). 

L'analyseur syntaxique 

L'analyse syntaxique des propositions ressemble beaucoup a l'analyse syntaxique 
des expressions dans le mini-Logo. La principale nouveaute est que nous allons prendre 
en compte les priorites entre operateurs. Par exemple, vous savez qu'en arithmetique 
1 + 2x3 signifie 1 + (2 x 3) et que 1x2 + 3 veut dire (1 x 2) + 3. Les deux ecritures sont 
tolerees et ont la meme signification. On dit que l'operateur x a une priorite plus elevee 
que l'operateur +. Cependant, l'analyseur syntaxique du mini-Logo traduit 1*2+3 par 

Produit(Constante 1, Somme(Constante 2, Constante 3)), 

ce qui correspond a 1 x (2 + 3). En effet, il analyse d'abord 1 comme une expression, puis 
voit l'operateur * et se rappelle done recursivement pour lire l'expression a la droite du 
*, dont il fait le deuxieme argument du constructeur Produit. L'analyseur syntaxique 
du mini-Logo ne tient done pas compte des priorites relatives des operateurs. 

Nous allons implementer des conventions de priorite analogues a celles de 
Parithmetique pour les operations de la logique : et est plus prioritaire que ou, 
qui est plus prioritaire que =>, etc. Dans ce but, l'analyseur syntaxique est stratifie 
en fonctions qui analysent des propositions de priorite de plus en plus faible. La 
fonction propositionO analyse ainsi les propositions les plus simples, identificateurs, 
booleens ou expressions entre parentheses. La fonction propositionl analyse les 
propositions qui commencent par non, ou qui sont des propositions simples. Les autres 
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fonctions proposition2 a propositions analysent respectivement les propositions 
qui comportent un et, un ou, une implication ou une equivalence. 

Fichicr asynt . ml 

#open "prop" ; ; 
#open "lexuniv";; 

let rec lire_proposition f = propositions f 

and propositionO = function 

I [< 'Ident s >] -> Variable s 
I [< >MC "vrai" >] -> Vrai 
I [< 'MC "faux" >] -> Faux 

I [< 'MC "("; lire_proposition p; 'MC ")" >] -> p 

and propositionl = function 

I [< 'MC "non"; propositionO p >] -> Non p 
I [< propositionO p >] -> p 

and proposition2 = function 

I [< propositionl p; (reste2 p) q >] -> q 
and reste2 p = function 

I [< 'MC "et"; propositionl q; (reste2 (Et (p, q) ) ) r >] -> r 

I [<>] -> p 

and propositions = function 

I [< proposition2 p; (reste3 p) q >] -> q 
and reste3 p = function 

I [< 'MC "ou"; proposition q; (reste3 (Du (p, q) ) ) r >] -> r 

I [<>] -> p 

and proposition4 = function 

I [< propositions p; (reste4 p) q >] -> q 
and reste4 p = function 

| [< 'MC "=>"; propositions q; (reste4 (Implique (p, q) ) ) r >] -> r 

I [<>] -> p 

and propositions = function 

I [< proposition4 p; (reste5 p) q >] -> q 
and reste5 p = function 

| [< 'MC "<=>"; proposition4 q; (reste5 (Equivalent (p,q))) r >] -> r 

I [<>] -> p; ; 



Les fonctions propositionl a propositions sont toutes construites sur le meme 
moule. Elles cherchent d'abord une proposition de niveau plus simple, puis appellent une 
fonction reste. Cette fonction se charge de detecter l'operateur, par exemple et pour 
reste2, suivi d'une proposition de meme niveau et eventuellement d'autres operateurs 
du meme type (d'autres et pour reste2). Remarquez que la fonction reste prend 
en argument l'arbre de syntaxe abstraite jusqu'a present construit et lui ajoute les 
operateurs rencontres ; d'ou l'appel reste2 p dans la fonction proposition2 et l'appel 
recursif reste2 (Et (p,q) ) dans la fonction reste2. 



220 



Demonstration de propositions 



La similitude entre les fonctions qui gerent les priorites des operateurs suggere 
d'ecrire une fonction generique qui prenne en argument l'operateur binaire a reconnaitre 
et la fonction de reconnaissance de ses arguments, puis construise automatiquement la 
fonction reste correspondante. C'est possible avec la fonctionnelle lire_operation 
ci-dessous. 

Fichicr asynt . ml 

let lire_operation lire_operateur lire_base constructeur = 

let rec lire_reste el = function 

I [< lire_operateur _; 
lire_base e2; 

(lire_reste (constructeur (el, e2))) e >] -> e 
I [< >] -> el in 
function [< lire_base el; (lire_reste el) e >] -> e;; 



L'argument lire_operateur est une fonction qui reconnait les flux commengant 
par l'operateur qui nous interesse, par exemple 

function [< 'MC " + " >] -> () 

dans le cas de l'operateur +. L'argument lire_base est une fonction supposee re- 
connaitre les arguments de l'operateur. Enfin, l'argument constructeur est une fonc- 
tion qui regoit les arbres de syntaxe abstraite des arguments et doit construire l'arbre de 
syntaxe abstraite de l'expression tout entiere. En utilisant cette puissante fonctionnelle 
lire_operation, Panalyseur syntaxique se simplifie notablement. 

Fichicr asynt . ml 



let rec lire_proposition f = propositions f 

and propositionO = function 

I [< 'Ident s >] -> Variable s 
I [< 'MC "vrai" >] -> Vrai 
I [< 'MC "faux" >] -> Faux 

I [< 'MC "("; lire_proposition p; 'MC ")" >] -> p 

and propositionl = function 

I [< 'MC "non"; propositionO p >] -> Non p 
I [< propositionO p >] -> p 

and proposition2 flux = 

lire_operation (function [< 'MC "et" >] -> ()) 
propositionl 

(function (p,q) -> Et (p,q)) 
flux 

and propositions flux = 

lire_operation (function [< 'MC "ou" >] -> ()) 
proposition2 

(function (p,q) -> Ou (p,q)) 
flux 

and proposition4 flux = 

lire_operation (function [< 'MC "=>" >] -> ()) 
propositions 
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(function (p,q) -> Implique (p,q)) 
flux 

and propositions flux = 

lire_operation (function [< 'MC "<=>" >] -> ()) 
proposition4 

(function (p,q) -> Equivalent (p,q)) 
flux; ; 



Pour construire la fonction principale d'analyse syntaxique, nous engendrons un 
analyseur lexical en appliquant (partiellement) la fonction construire_analyseur 
a la liste des mots-cles, puis nous composons cet analyseur lexical avec la fonction 
lire_proposition. 

Fichier asynt . ml 

let analyseur_lexical = 
construire_analyseur 
["vrai"; "faux"; "("; ")"; "non" ; "et"; "ou"; "=>"; "<=>"];; 

let analyse_proposition chaine = 

lire_proposition (analyseur_lexical (stream_of _string chaine));; 

Pour finir, nous cachons toutes les fonctions intermediaries d'analyse syntaxique, 
en exportant uniquement la fonction principale. 

Fichier asynt .mli 

#open "prop" ; ; 

value analyse_proposition: string -> proposition;; 



12.6 Le verificateur de tautologies 

Tout est pret pour realiser un demonstrateur de theoremes se presentant sous la 
forme d'une boucle d'interaction qui lit des propositions et essaye de les prouver. 

Le cceur du demonstrateur est la fonction examine. Partant d'une chaine de 
caracteres, elle la transforme en proposition, calcule ses variables libres et appelle 
verif ie_tautologie. Si rien ne se passe, la proposition est un theoreme et la fonc- 
tion examine affiche un message pour le dire. Sinon, verif ie_tautologie declenche 
l'exception Refutation et examine imprime une refutation prouvant que la proposition 
fournie n'est pas un theoreme. 

Fichier demo . ml 

#open "prop" ; ; 
#open "asynt" ; ; 

let examine chaine = 

let proposition = analyse_proposition chaine in 
let variables = variables_libres proposition in 
try 

verif ie_tautologie proposition variables; 
begin match variables with 
I □ -> 
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print_string "Theoreme: " 
I [var] -> 

print_string ("Theoreme: pour toute proposition ""var"", ") 
I _ -> 

print_string "Theoreme: pour toutes propositions "; 
do_list (function var -> print_string (var~", ")) variables 

end; 

print_string chaine; 
print_newline () 
with Refutation liaisons -> 

print_string (chaine ~ " n'est pas un theoreme, \n" ) ; 
print_string "car la proposition est fausse quand\n" ; 
do_list 
(function (var, b) -> 

print_string (var ~ " est "); 

print_string (if b then "vraie" else "fausse"); 
print_newline ()) 
liaisons ; ; 



Nous mettons autour de cette fonction une boucle d'interaction standard, dans le 
style de celle pour le mini-Logo presentee a la section 10.3. 

Fichicr demo . ml 

let boucle () = 
try- 
while true do 

print_string ">>> "; examine (read_line ()) 
done 

with End_of _f ile -> () ; ; 
if sys interactive then () else begin boucle () ; exit 0 end; ; 



L'identificateur sys interactive est predefini par le systeme, vaut true si le pro- 
gramme tourne sous le systeme interactif et false si le programme tourne comme une 
application independante. Nous le testons pour eviter de lancer la boucle d'interaction 
dans le cas ou ce code est execute depuis le systeme interactif. Dans ce cas, il est 
preferable de laisser l'utilisateur lancer la boucle lui-meme et surtout de ne pas sortir 
prematurement du systeme interactif par exit 0 quand la boucle termine. 



Compilation du programme 

II ne reste plus qu'a compiler les modules et a les lier entre eux. Voici comment faire, 
a gauche avec le compilateur independant camlc, a droite avec le systeme interactif. 

$ camlc -c prop.mli # compile "prop.mli";; 

$ camlc -c prop. ml # compile "prop. ml";; 

$ camlc -c lexuniv.mli # compile "lexuniv.mli" ; ; 

$ camlc -c lexuniv.ml # compile "lexuniv .ml" ; ; 

$ camlc -c asynt.mli # compile "asynt .mli" ; ; 

$ camlc -c asynt. ml # compile "asynt. ml";; 

$ camlc -c demo. ml # compile "demo. ml";; 
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$ camlc -o demo prop.zo \ # do_list load_object ["prop.zo"; 

lexuniv.zo asynt.zo demo.zo "lexuniv.zo" ; "asynt.zo" ; "demo.zo"] ; ; 

Le demonstrateur se lance par rincantation suivante : 

$ camlrun demo #demo boucle () ; ; 

Nous pouvons alors taper des propositions en reponse au signe d'invite «»>». Pour 
sortir du programme, il faut taper un caractere «fin de fichier» (ctrl-D en Unix) ou 
une interruption (ctrl-C en Unix). 

12.7 Exemples de theoremes 

Simples mais tellement vrais 

Pour montrer les capacites de notre programme, nous etablissons des theoremes 
simples, mais de moins en moins intuitifs. Tout d'abord, «le contraire du contraire 
d'une proposition c'est la proposition elle-meme » : 

»> non (non P) <=> P 

Theoreme: pour toute proposition P, non (non P) <=> P 

Le tiers exclus : une proposition est toujours soit vraie soit fausse mais jamais les deux 
en meme temps. 

»> P ou (non P) <=> vrai 

Theoreme: pour toute proposition P, P ou (non P) <=> vrai 
»> P et (non P) <=> faux 

Theoreme: pour toute proposition P, P et (non P) <=> faux 

Dire qu'une proposition est equivalente a «vrai» c'est simplement dire que la propo- 
sition est vraie; inversement, dire qu'elle est equivalente a «faux», c'est dire que sa 
negation est vraie : 

»> (P <=> vrai) <=> P 

Theoreme: pour toute proposition P, (P <=> vrai) <=> P 
»> (P <=> faux) <=> non P 

Theoreme: pour toute proposition P, (P <=> faux) <=> non P 

Les deux theoremes precedents se reecrivent done plus simplement : 
»> P ou (non P) 

Theoreme: pour toute proposition P, P ou (non P) 
»> non (P et (non P)) 

Theoreme: pour toute proposition P, non (P et (non P)) 

En logique, il est inutile de repeter deux fois la meme chose: «P ou P» c'est P. Et 
inutile d'insister, «P et P» c'est aussi P. 

»> P ou P <=> P 

Theoreme: pour toute proposition P, P ou P <=> P 
»> P et P <=> P 

Theoreme: pour toute proposition P, P et P <=> P 

II est evident qu'en supposant une hypothese vraie, on la demontre facilement (« P 
P»). De plus, une proposition est toujours equivalente a elle-meme. 
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»> p => p 

Theoreme: pour toute proposition P, P => P 
»> P <=> P 

Theoreme: pour toute proposition P, P <=> P 

On sait bien que P 44> Q est synonyme de Q 4^ P, mais nous le prouvons : 
»> (p <=> q) <=> (q <=> p) 

Theoreme: pour toutes propositions q, P, (P <=> q) <=> (q <=> P) 

On sait aussi que prouver Pequivalence de deux propositions est equivalent a prouver 
Pequivalence de leur negation : 

»> (non P <=> non Q) <=> (P <=> Q) 
Theoreme: pour toutes propositions q, P, 
(non P <=> non Q) <=> (P <=> Q) 

Mais on connait souvent moins bien la notion de proposition contraposee d'une im- 
plication. La contraposee de P =>■ Q est la proposition (non Q) (non P). Elle 
est interessante car elle est equivalente a la proposition de depart. Cependant, il est 
quelquefois plus facile de prouver la contraposee d'une proposition que la proposition 
elle-meme. Nous etablissons le theoreme : 

»> (P => q) <=> (non q) => (non P) 
Theoreme: pour toutes propositions q, P, 
(P => q) <=> (non q) => (non P) 

La demonstration par l'absurde consiste, pour demontrer P =>■ Q, a supposer vraie 
l'hypothese P et fausse la conclusion Q et a en deduire une contradiction — ce qui 
revient a dire qu'on en deduit la proposition «faux». La validite de cette methode de 
demonstration repose done sur le theoreme suivant : 

»> (P et non q => faux) <=> (P => q) 
Theoreme: pour toutes propositions q, P, 
(P et non q => faux) <=> (P => q) 

La reponse aux questions de l'introduction 

Nous repondons maintenant aux interrogations du debut de ce chapitre. Nous avions 
pose la question : « sachant que la phrase P est vraie et que la phrase Q est fausse, est-ce 
que la phrase obtenue en disant P et Q est une phrase vraie ?». L'hypothese «P est 
vraie et Q est fausse » se traduit simplement par P et non Q. Sous cette hypothese, 
peut-on demontrer que P etQ est vraie ? 

»> (P et non Q) => (P et Q) 

(P et non q) => (P et q) n'est pas un theoreme, 
car la proposition est fausse quand 
P est vraie 
q est fausse 

Non, la deduction est erronee. En revanche le contraire est exact : 

»> (P et non Q) => non (P et Q) 
Theoreme: pour toutes propositions q, P, 
(P et non Q) => non (P et Q) 

Examinons maintenant la validite du raisonnement complexe : 
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Puisque P est vraie et que Q est fausse, 

P n'est done pas une condition necessaire pour que Q soit vraie 

La premiere ligne ne pose pas de probleme de traduction. Le raisonnement « puisque 
R, done S » se traduit aisement : e'est une autre fagon d'exprimer que Pimplication 
« R => S » est vraie. Le raisonnement se traduit done par (P et non Q) =>■ . . . En 
revanche, que signifie « condition necessaire » ? P est une condition necessaire pour Q 
si, des que Q est vraie, alors P est elle aussi vraie. Autrement dit, si Q est vraie, P 
est necessairement vraie. Cela signifie que Ton a Q =>■ P. La phrase « P n'est pas une 
condition necessaire pour que Q soit vraie » signifie done simplement non (Q P). En 
mettant les morceaux ensemble, on obtient : 
»> (P et non Q) => (non (Q => P)) 

(P et non Q) => (non (Q => P)) n'est pas un theoreme, 
car la proposition est fausse quand 
P est vraie 
Q est fausse 

Le raisonnement n'etait pas valide. On a confondu condition necessaire et condition 
suffisante : une condition suffisante pour qu'une proposition Q soit vraie est une propo- 
sition P qui permet de deduire la proposition Q. Autrement dit, P est une condition 
suffisante pour que Q soit vraie si P suffit pour demontrer Q, e'est-a-dire si P Q est 
vraie. Sous les hypotheses du raisonnement, il est exact que P n'est pas une condition 
suffisante pour demontrer Q. En effet : 

»> (P et non Q) => (non (P => Q)) 
Theoreme: pour toutes propositions Q, P, 
(P et non Q) => (non (P => Q)) 

Lois de De Morgan 

Nous demontrons maintenant deux theoremes, bien connus en logique sous le nom 
de lois de De Morgan, qui font le lien entre les connecteurs «et», «ou» et «non» : 

»> non (P et Q) <=> (non P) ou (non Q) 
Theoreme: pour toutes propositions Q, P, 

non (P et Q) <=> (non P) ou (non Q) 
»> non (P ou Q) <=> (non P) et (non Q) 
Theoreme: pour toutes propositions Q, P, 

non (P ou Q) <=> (non P) et (non Q) 

Les lois de De Morgan sont quelquefois utiles en informatique. Par exemple, dans une 
alternative comme 

if not (x <= 1 II x >= 2) then . . . else . . . 
on simplifie la condition en employant les lois de De Morgan. En effet, 

not (x <= 1 || x >= 2) signifie (not (x <= 1)) && (not (x >= 2)) 

e'est-a-dire x > 1 && x < 2. (II faut savoir que le contraire de <= est >, celui de >= est 
< et reciproquement.) 

Remarquez que nous pouvons demontrer : 

»> non ((non P) ou (non Q)) <=> P et Q 
Theoreme: pour toutes propositions Q, P, 
non ((non P) ou (non Q)) <=> P et Q 
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Cette propriete permet de reduire plus rapidement 1' alternative ci-dessus. En remar- 
quant que x <= 1 est equivalent a not (x > 1) et que x >= 2 est equivalent a not 
(x < 2), on ecrit la condition not (x <= 1 II x >= 2) sous la forme not ((not 
(x > 1)) || (not (x < 2))). II ne reste qu'a utiliser le theoreme precedent avec 
P = (x > 1) et Q = (x < 2). On obtient alors P etQ, c'est-a-dire x > 1 && x < 2. 

Si vous ne vous interessez pas aux proprietes algebriques des connecteurs logiques, 
ou si vous n'etes pas curieux de voir notre programme demontrer des proprietes 
«abstraites», vous pouvez passer a la section suivante. 

Proprietes algebriques des connecteurs propositionnels 

On etablit en mathematiques que le « et » et le « ou » sont des operations associatives 
et commutatives. Ces proprietes sont communes aux connecteurs propositionnels et aux 
operations arithmetiques + et x . Par exemple, pour l'addition, la commutativite signifie 
qu'on peut additionner les nombres dans n'importe quel ordre sans changer le resultat : 
x + y = y + x. L'associativite concerne les parentheses ; elle indique simplement que 
la place des parentheses ne change pas le resultat d'une addition, ce qu'on exprime 
par une formule qui montre que deplacer les parentheses ne modifie pas le resultat du 
calcul : (x + y) + z = x + (y + z). Le « ou » et le « et » verifient ces proprietes : 

»> (P ou Q) <=> (Q ou P) 

Theoreme: pour toutes propositions Q, P, (P ou Q) <=> (Q ou P) 
»> ((P ou Q) ou R) <=> (P ou (Q ou R) ) 
Theoreme: pour toutes propositions R, Q, P, 
((P ou Q) ou R) <=> (P ou (Q ou R) ) 

L 'implication est-elle aussi associative et commutative ? 

»> (P => Q) <=> (Q => P) 

(P => Q) <=> (Q => P) n'est pas un theoreme, 
car la proposition est fausse quand 
P est fausse 
Q est vraie 

»> ((P => Q) => R) <=> (P => (Q => R)) 

((P => Q) => R) <=> (P => (Q => R)) n'est pas un theoreme, 
car la proposition est fausse quand 
P est fausse 
Q est vraie 
R est fausse 

Une propriete interessante : une combinaison de « et » et de « ou » se comporte 
comme la multiplication et l'addition, on la «developpe» de facon analogue. II est 
bien connu que la multiplication est distributive par rapport a l'addition, ce qui per- 
met d'ecrire : x x (y + z) = xxy + xxz. Notre programme prouve que le «et» est 
distributif par rapport au «ou», c'est-a-dire qu'on developpe P et (Q ou R) comme si 
c'etait P x (Q + R): 

»> (P et (Q ou R)) <=> (P et Q) ou (P et R) 
Theoreme: pour toutes propositions R, Q, P, 
(P et (Q ou R)) <=> (P et Q) ou (P et R) 
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II demontre tout aussi facilement que le « ou » est distributif par rapport au « et » (ce 
resultat n'a pas d'analogue en arithmetique) . 

»> (P ou (Q et R) ) <=> (P ou Q) et (P ou R) 
Theoreme: pour toutes propositions R, Q, P, 
(P ou (Q et R)) <=> (P ou Q) et (P ou R) 

Imaginez ce que serait une demonstration « a la main » de cette propriete avec des 
tables de verite : on aurait huit lignes et huit colonnes . . . 

Finalement, l'equivalence est une relation d' equivalence, ce qui signifie simple- 
ment qu'elle introduit une certaine notion d'egalite. II est evidemment heureux 
qu'il en soit ainsi : il serait vraiment dommage que l'equivalence ne soit pas une 
relation d'equivalence ! De plus, nous avons vu que l'equivalence definissait la no- 
tion de propositions logiquement identiques, c'est-a-dire egales au point de vue de 
la logique; l'equivalence definit done bien une notion d'egalite. Formellement, une 
relation d'equivalence est une relation reflexive, symetrique et transitive. L'egalite en 
mathematiques (le symbole =) a ces proprietes et ce sont les proprietes minimales 
qu'on doit exiger d'une relation pour qu'elle definisse l'idee de deux objets semblables. 
La principale difficulte pour expliciter ces proprietes provient de leur evidence meme : 
nous y sommes tellement habitues et elles paraissent tellement evidentes que «ca 
va sans dire». C'est exactement le but de la logique que d'ecrire noir sur blanc ces 
evidences. 

La reflexivite signifie qu'un objet est toujours egal a lui-meme : x = x. La symetrie 
signifie que lorsqu'un objet est egal a un autre objet, l'autre objet est aussi egal au 
premier: si x = y alors y = x. La transitivite se traduit par «deux objets egaux a un 
meme troisieme sont egaux entre eux», ou encore si x = y et y = z alors x = z. Le 
programme etablit pour nous ces trois proprietes de l'equivalence logique : 
»> p <=> p 

Theoreme: pour toute proposition P, P <=> P 
»> (P <=> Q) => (Q <=> P) 

Theoreme: pour toutes propositions Q, P, (P <=> Q) => (Q <=> P) 
»> (P <=> Q) et (Q <=> R) => (P <=> R) 
Theoreme: pour toutes propositions R, Q, P, 
(P <=> Q) et (Q <=> R) => (P <=> R) 

On utilise les deux theoremes suivants pour simplifier les circuits logiques. Le pre- 
mier permet d'eliminer deux connecteurs propositionnels : 
»> (P ou (P et Q)) <=> P 

Theoreme: pour toutes propositions Q, P, (P ou (P et Q)) <=> P 

On supprime de meme un connecteur et une negation grace au theoreme : 

»> (P ou (non P et Q)) <=> P ou Q 
Theoreme: pour toutes propositions Q, P, 
(P ou (non P et Q)) <=> P ou Q 

Pour finir, un petit exercice (le premier exemple s'appelle la loi de Pierce) : 
»> ((P => Q) => P) => P 

Theoreme: pour toutes propositions Q, P, ((P => Q) => P) => P 
»> ((P => Q) => P) => Q 

((P => Q) => P) => Q n'est pas un theoreme, 
car la proposition est fausse quand 
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P est vraie 
Q est fausse 

»> (P <=> Q) <=> ((P ou Q) => (P et Q)) 
Theoreme: pour toutes propositions Q, P, 
(P <=> Q) <=> ((P ou Q) => (P et Q)) 

L'auriez-vous devine en reflechissant au sens des connecteurs ? 

12.8 Pour aller plus loin: l'analyseur lexical universel 

Dans cette section, nous implementons l'analyseur lexical « universel » utilise pour 
lire les propositions. On rappelle l'interface de ce module : 

Fichicr lexuniv .mli 

type lexeme = 

I MC of string 

I Ident of string 

I Entier of int ; ; 
value construire_analyseur : 

string list -> (char stream -> lexeme stream) ; ; 

L 'implementation reprend de gros morceaux de l'analyseur lexical ecrit pour le mini- 
Logo (chapitre 9, section 9.6), en les rendant un peu plus generaux. La principale 
nouveaute est l'introduction de tables de hachage pour decider rapidement si un iden- 
tificateur est un mot-cle. 

Les analyseurs lexicaux engendres par la fonction construire_analyseur savent 
reconnaitre les nombres entiers, les identificateurs et les mots-cles. II serait facile 
d'ajouter les nombres flottants et les chaines de caracteres, mais cela n'est pas utile 
pour Putilisation que nous en ferons. 

Fonctions de lecture de base 

Pour la lecture des entiers et des identificateurs, nous reutilisons les fonctions 
lire_entier et lire_mot du mini-Logo. 

Fichier lexuniv .ml 

let rec lire_entier accumulateur flux = 
match flux with 
I [< '('0' . . '9' as c) >] -> 

lire_entier (10 * accumulateur + int_of_char c - 48) flux 
I [< >] -> 

accumulateur; ; 

let tampon = make_string 16 

let rec lire_mot position flux = 
match flux with 

I [< '('A'-.'Z' I 'a'./z' I <0'..<9' I '_' I "' I 

'<§' I 'a 1 I 'e' I 'u' I 'a' I 'e* I 'I' I '6' I <u' I 'e' I <i< I <ii< I V I 

'E'rA'i'E'i'u'i'A'rE'ri'rfl'ru'i'E'i'i'i'u'rQ' 

as c) >] -> 
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if position < string_length tampon then 

tampon. [position] <- c; 
lire_mot (position + 1) flux 
I [< >] -> 

sub_string tampon 0 (min position (string_length tampon));; 



Sur le modele de lire_mot, nous ajoutons une fonction lire_symbole qui reconnait 
les suites de caracteres speciaux, comme ** ou <=>. Ces suites de caracteres speciaux 
sont soit des mots-cles soit des identificateurs, exactement comme les suites de lettres 
et de chiffres qui constituent un mot. 

Fichier lexuniv .ml 

let rec lire_symbole position flux = 
match flux with 

I [< '(' ! ' I I "/.' I I '*' I ' + ' I I 1 . ' I '/' I ' : ' I 

C.«|C <t |C = .|« > C|« ? C|« C C|.-«|C|«|C-« ag c) >] _> 

if position < string_length tampon then 

tampon . [position] <- c; 
lire_symbole (position + 1) flux 
I [< >] -> 

sub_string tampon 0 (min position (string_length tampon));; 

L'analyseur lexical autorise des commentaires dans le texte d'entree, sous une forme 
tres simple : tout ce qui suit un caractere # est ignore, jusqu'a la fin de la ligne. La 
fonction lire_commentaire se charge de sauter tous les caracteres du flux d'entree 
jusqu'au prochain caractere de fin de ligne. 

Fichier lexuniv. ml 

let rec lire_commentaire flux = 

match flux with 

I [< "\n< >] -> () 

I [< 'c >] -> lire_commentaire flux;; 



Recherche des mots-cles par hachage 

Ayant reconnu un mot ou un symbole, il reste a determiner s'il appartient a la 
liste des mots-cles. Ce test sera fait une fois pour chaque mot ou symbole du flux 
d'entree, done un tres grand nombre de fois ; il est par consequent crucial que ce test 
«aille vite». Au lieu d'une simple recherche lineaire dans la liste des mots-cles, nous 
employons une technique plus subtile, connue sous le nom de hachage, et la structure de 
donnees correspondante, les tables de hachage. La technique du hachage est decrite en 
detail a la prochaine section. Pour l'instant, nous allons juste expliquer le comportement 
d'une table de hachage. Une table de hachage est une table d'association physiquement 
modifiable : elle enregistre des associations de certaines cles avec certaines donnees ; on 
entre de nouvelles associations, ou l'on en retire d'anciennes en modifiant physiquement 
la table. Voici une partie de l'interface du module hashtbl de la bibliotheque standard, 
qui implemente les tables de hachage : 

type ('a, 'b) t; ; 

value new: int -> ('a, 'b) t 
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and add: ('a, 'b) t -> 'a -> 'b -> unit 
and find: ('a, 'b) t -> 'a -> 'b; ; 

Le type ('a, 'b) hashtbl t est le type des tables de hachage associant des cles 

de type 'a avec des donnees de type 'b. La fonction hashtbl new renvoie une nou- 

velle table de hachage, initialement vide, c'est-a-dire ne contenant aucune liaison. (Le 

parametre entier de hashtbl new est une indication de la taille de la table ; nous 

verrons son role dans la prochaine section.) La fonction hashtbl find effectue une 

recherche dans une table de hachage: hashtbl find t c renvoie la donnee a laquelle 

la cle c est liee dans la table t, ou declenche l'exception Not_found si la cle c n'est 

pas liee. La fonction hashtbl add enregistre une liaison dans une table de hachage : 

hashtbl add ted place dans la table t une liaison de la cle c a la donnee d. Si la 

cle c etait deja liee a une donnee, la nouvelle liaison cache l'ancienne. 

Pour resumer, disons que les tables de hachage se comportent exactement comme 
des listes d'association physiquement modifiables. Poussant cette intuition, on peut 
tres bien faire une implementation correcte du module hashtbl a l'aide de listes 
d'association, sans employer la technique du hachage : 

type ('a, 'b) t == ('a * 'b) list ref;; 
let new n = ref [] ; ; 
let add tcd=t :=(c, d) :: !t;; 
let find t c = assoc c !t;; 

La vraie implementation de hashtbl, esquissee dans la prochaine section, est bien plus 
complexe : elle utilise du hachage pour accelerer considerablement l'operation find. 
Cependant, son comportement est exactement le meme que celui de 1' implementation 
naive donnee ci-dessus. Retenons done qu'une table de hachage se comporte comme 
une liste d'association, a ceci pres que les operations de recherche sont beaucoup plus 
efficaces. 

Nous utiliserons done une table de hachage pour stocker l'ensemble des mots- 
cles d'un analyseur lexical. La table associe aux mots-cles eux-memes (des chaines 
de caracteres) les lexemes correspondants. Elle est done du type (string, lexeme) 

hashtbl t. Pour determiner si un mot trouve dans le flux d'entree est un mot-cle 

ou un simple identificateur, on interroge tout simplement la table des mots-cles avec 
hashtbl find. 

Fichier lexuniv.ml 

let mc_ou_ident table_des_mots_cles ident = 

try hashtbl find table_des_mots_cles ident 

with Not_found -> Ident ident;; 



Une variante de mc_ou_ident nous sera utile pour reconnaitre les mots-cles mono- 
caracteres, par exemple les parentheses. 

Fichier lexuniv .ml 

let mc_ou_erreur table_des_mots_cles caractere = 

let ident = make_string 1 caractere in 

try hashtbl find table_des_mots_cles ident 

with Not_found -> raise Parse_error ; ; 
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Reconnaissance d'un lexeme 

La lecture des lexemes consiste tout d'abord a passer les blancs et les commentaires, 
puis a reconnaitre un identiflcateur, un mot-cle ou un nombre entier (eventuellement 
negatif, done precede du signe «-»). Les symboles mono-caracteres comme les par- 
entheses () [] {} ou bien les caracteres non imprimables doivent etre declares comme 
mots-cles, sinon ils produisent une erreur. 

Fichicr lexuniv .ml 

let rec lire_lexeme table flux = 
match flux with 

I [< '(< ' I '\n< I <\r< I <\t<) >] -> 

lire_lexeme table flux 
| [< "#' >] -> 

lire_commentaire flux; lire_lexeme table flux 
I [< >('A< ..'Z' I 'a' ..'z' I 

'e< I 'a 1 I 'e' I <u< I 'a' I 'e* I 'I' I '6' I 'u' I 'e' I <i< I <ii< I V I 

as c) >] -> 
tampon. [0] <- c; 

mc_ou_ident table (lire_mot 1 flux) 
I [< >('\'\'$'\'%<\'&'\'*'\<+'\< .'\'/'\' :'\';'\ 

'<' I ' = ' I <>< I <?< I '(§' I I 1 I ' \ '~' as c) >] -> 
tampon. [0] <- c; 

mc_ou_ident table (lire_symbole 1 flux) 
I [< '('0' . . '9' as c) >] -> 

Entier (lire_entier (int_of_char c - 48) flux) 
I [< "-' >] -> 

begin match flux with 

I [< 'CO 1 . . '9' as c) >] -> 

Entier (- (lire_entier (int_of_char c - 48) flux)) 
I [< >] -> 

tampon. [0] <- '-' ; 

mc_ou_ident table (lire_symbole 1 flux) 

end 

I [< 'c >] -> 

mc_ou_erreur table c;; 



Generation de l'analyseur 

Comme pour le mini-Logo, on construit le flux des lexemes par appels repetes a 
lire_lexeme. 

Fichier lexuniv. ml 

let rec analyseur table flux = 
stream_from (function () -> 
match flux with 

I [< (lire_lexeme table) lexeme >] -> lexeme 
I [< >] -> raise Parse_f ailure) ; ; 
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Finalement, la generation d'un analyseur lexical consiste simplement a construire sa 
table des mots-cles, puis a appliquer partiellement l'analyseur generique a cette table. 
Le resultat de Papplication partielle est la fonction des flux de caracteres vers les flux 
de lexemes desiree. 

Fichier lexuniv.ml 

let construire_analyseur mots_cles = 

let table_des_mots_cles = hashtbl new 17 in 

do_list 

(function mot -> hashtbl add table_des_mots_cles mot (MC mot)) 

mots_cles; 
analyseur table_des_mots_cles ; ; 



12.9 Pour aller encore plus loin: le hachage 

L'idee du hachage vient de la constatation que la recherche d'un objet dans une liste 
d'association se revele couteuse si l'on doit faire beaucoup de recherches, en particulier 
si ces recherches sont la plupart du temps infructueuses. En effet pour trouver un objet 
dans une liste d'association, il faut en moyenne parcourir la moitie de la liste, si Ton 
suppose qu'on recherche des cles en moyenne disposees au hasard dans la liste. Pour 
constater que la cle est absente de la liste, c'est pire : il faut parcourir toute la liste. 
(C'est le cas le plus frequent dans Pexemple de Panalyse lexicale.) 

Le seul moyen d'accelerer la recherche d'une cle dans un ensemble est d'eliminer 
tres rapidement un grand nombre de tests en prouvant tres vite qu'ils sont voues a 
l'echec. En particulier, on ira beaucoup plus vite si l'on est capable de restreindre la 
recherche exhaustive de la cle a un ensemble beaucoup plus petit que celui de depart. 
C'est toujours le principe de «diviser pour regner» qui prevaut. 

Le hachage consiste done a fractionner un gros ensemble de cles en sous-ensembles 
coherents et a ne chercher une cle que dans le petit sous-ensemble qui la concerne. La 
methode suppose done qu'on dispose d'un moyen tres rapide de determiner le sous- 
ensemble auquel une cle est susceptible d'appartenir. Les sous-ensembles sont par ex- 
emple de simples listes ; on les regroupe en un tableau, afin de pouvoir acceder di- 
rectement a n'importe quel sous-ensemble. On represente done le sous-ensemble auquel 
appartient une cle par un simple numero, l'indice du sous-ensemble dans le tableau des 
sous-ensembles. La fonction qui determine ce numero s'appelle justement la fonction 
de hachage. 

En termes savants, on dit qu'on partitionne les cles en classes d'equivalence modulo 
la fonction de hachage. En termes simples, on range les cles dans le meme sous-ensemble 
quand elles ont la meme image par la fonction de hachage. Prenons un exemple tres 
simple : supposons que les cles soient des nombres entiers. Comment partager rapide- 
ment ces entiers en dix sous-ensembles ? II suffit de regarder leur dernier chiffre. Si l'on 
veut les partager en deux sous-ensembles, on considere leur parite (pair ou impair). De 
facon generale, une maniere de les partager en n sous-ensembles est de calculer le reste 
de leur division par n. A titre demonstratif, nous prenons dix sous-ensembles. Notre 
fonction de hachage est done : 

# let hache cle = cle mod 10;; 
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hache : int -> int = <fun> 

Maintenant, nous voulons associer des informations a nos entiers, par exemple des 
chaines de caracteres. C'est notamment le cas si nous voulons representer un annuaire 
« a l'envers » : a partir d'un numero de telephone, nous desirons retrouver le nom du 
correspondant. Sous forme de liste d'association, cela donne: 

# let liste_d' association = 

[11, "police"; 16, "pompiers"; 0139635511, "standard"; 
0139635198, "Pierre"; 0139635202, "Xavier"; 7234864, "Xavier" ; 
0139635570, "Nelly"; 3613, "Teletel 1"; 3615, "Teletel 3" ];; 

Sous forme de table de hachage, nous divisons cette liste en dix listes d'association, 
suivant le dernier chiffre du numero : 

# let table_des_sous_ensembles = 

[| (* 0 *) [0139635570, "Nelly"]; 

(* 1 *) [11, "police"; 0139635511, "standard"]; 

(* 2 *) [0139635202, "Xavier"]; 

(* 3 *) [3613, "Teletel 1"] 

(* 4 *) [7234864, "Xavier"] 

(* 5 *) [3615, "Teletel 3"] 

(* 6 *) [16, "pompiers"] ; 

(* 7 *) [] ; 

(* 8 *) [0139635198, "Pierre"]; 

(* 9 *) □ 

□ ;; 

Pour trouver le sous-ensemble dans lequel chercher une cle, on cherche son numero en 
« hachant » la cle puis on extrait du tableau le sous-ensemble concerne. Pour chercher 
Passocie d'une cle on utilise simplement assoc sur le sous-ensemble correspondant a la 
cle. 

# let sous_ensemble_de cle = 

let numero_du_sous_ensemble = hache cle in 
table_des_sous_ensembles . (numero_du_sous_ensemble) ; ; 
sous_ensemble_de : int -> (int * string) list = <fun> 

# let associe_de cle = assoc cle (sous_ensemble_de cle) ; ; 
associe_de : int -> string = <fun> 

# associe_de 3615;; 

- : string = "Teletel 3" 

# associe_de 911;; 

Exception non rattrapee : Not_found 

Chaque appel a associe_de finit done par appeler la fonction assoc, mais sur des 
listes d'association beaucoup plus petites que la liste representant tout l'annuaire : un 
et deux elements, respectivement, au lieu de neuf. Dans certains cas, on tombe meme 
immediatement sur un sous-ensemble vide, par exemple si on cherche un numero se 
terminant par 7, ce qui fait que la recherche est quasi immediate. Dans tous les cas, on 
restreint nettement l'espace de recherche. 

II est facile de construire les sous-ensembles automatiquement. On part d'une table 
oil tous les sous-ensembles sont vides. 

# let table_des_sous_ensembles = 

(make_vect 10 [] : (int * string) list vect) ; ; 
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Puis on range chaque paire (cle, valeur) a memoriser dans le sous-ensemble correspon- 
dant a la valeur de hachage de la cle. 

# let ajoute_une_cle ((cle, valeur) as cle_valeur) = 

let numero_du_sous_ensemble = hache cle in 
table_des_sous_ensembles . (numero_du_sous_ensemble) <- 
cle_valeur : : 

table_des_sous_ensembles . (numero_du_sous_ensemble) ; ; 
ajoute_une_cle : int * string -> unit = <fun> 

# do_list ajoute_une_cle liste_d'association; ; 

- : unit = () 

# table_des_sous_ensembles ; ; 

- : (int * string.) list vect = 

[I [139635570, "Nelly"]; [139635511, "standard"; 11, "police"]; 
[139635202, "Xavier"] ; [3613, "relet el 1 "] ; [7234864, "Xavier"] ; 
[3615, "Teletel 3"]; [16, "pompiers"]; [] ; [139635198, "Pierre"]; 

on 

Le hachage n'est pas restreint aux cles de type entier. On peut Pappliquer a 
n'importe quel type de cles, pourvu qu'on sache associer rapidement un entier a une 
cle. On definit alors la fonction de hachage comme etant l'entier associe a la cle, 
modulo la taille de la table de hachage. La transformation de la cle en entier n'a pas 
besoin d'etre «exacte», en ce sens que deux cles differentes ont sans probleme le meme 
entier associe. Pour obtenir une bonne repartition des cles dans les sous-ensembles, il 
faut quand meme s'efforcer d'eviter autant que possible cette situation. Dans le cas 
particulier oil les cles sont des chaines de caracteres, cas d'une grande importance 
pratique, on a propose un certain nombre de « recettes » pour associer rapidement un 
entier a une chaine, avec de bonnes proprietes de repartition. Voici un exemple simple 
de fonction de hachage sur les chaines : 

# let hache_chalne taille_table c = 

let res = ref 0 in 

for i = 0 to string_length c - 1 do 
res : = 

(int_of_char c. [i] + Ires * 128) mod taille_table 
done ; 
Ires; ; 

hache_ chaine : int -> string -> int = <fun> 

L'idee est de faire intervenir dans le resultat final la valeur de chacun des caracteres 
de la chaine, pour assurer une bonne dispersion des resultats. Nous n'essaierons pas de 
justifier la formule ci-dessus dans tous ses details (pourquoi 128, etc.). 

Nous savons done hacher des entiers et des chaines. Le systeme Caml va beaucoup 
plus loin que cela: il fournit une fonction de bibliotheque capable d'associer un en- 
tier a n'importe quelle valeur Caml, quel que soit son type. II s'agit de la fonction 

hashtbl hash, de type 'a -> int. Cette fonction est raisonnablement rapide et pro- 

duit des resultats assez bien repartis. Au-dessus de cette fonction, il est facile de definir 
une fonction de hachage qui opere sur tous les types de cles : 

# let hache taille_table cle = 

hashtbl hash cle mod taille_table; ; 

hache : int -> ' a -> int = <fun> 
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Ensuite, on construit facilement un type t et des operations new, add et find compa- 
rables a ceux du module hashtbl : 

# type ('a, 'b) t == ('a * 'b) list vect;; 
Le type t est defini. 

# let new taille_table = 

make_vect taille_table [] ; ; 
new : int -> 'a list vect = <fun> 

# let add table cle donnee = 

let index = hache (vect_length table) cle in 
table . (index) <- (cle, donnee) :: table . (index) ; ; 
add : ('a * >b) list vect -> ' a -> 'b -> unit = <fim> 

# let find table cle = 

let index = hache (vect_length table) cle in 
assoc cle table . (index) ; ; 
find : ('a * >b) list vect -> 'a -> 'b = <fun> 

L 'implementation du module hashtbl fournie par la bibliotheque standard s'appuie elle 
aussi sur la fonction hash polymorphe, mais est plus complexe que l'implementation 
donnee ci-dessus. En particulier, elle sait agrandir dynamiquement la table quand les 
sous-ensembles menacent de devenir trop gros, ce qui garantit de bonnes performances 
meme sur de tres grosses tables. 



13 

Compression de fichiers 



Ou I'on fait passer un chameau par le chas d'une aiguille. 



ANS CE CHAPITRE, nous programmerons une commande de compression de 
fichiers. La compression consiste a transformer des fichiers pour qu'ils occu- 
pent moins de place ; l'operation inverse, la decompression, reconstruit les 
fichiers de depart a partir des fichiers transformes. Ce sera l'occasion d'introduire 
quelques algorithmes classiques, en particulier deux exemples interessants d'utilisation 
des arbres binaires, parmi bien d'autres. Nous aurons egalement besoin de faire des 
entrees-sorties bit par bit, et done de manipuler les entiers au niveau du bit. 

13.1 La compression de donnees 

La plupart des fichiers stockes dans les ordinateurs contiennent un certain degre 
de redondance. Tres souvent, si Ton code differemment les donnees qu'ils contien- 
nent, on reduit considerablement leur taille, sans perte d'information, si l'on suppose 
evidemment que le processus de recodage est reversible, et qu'il permet done de retrou- 
ver les fichiers d'origine a tout instant. C'est ce recodage qu'on appelle compression des 
donnees. 

Les precedes de compression et de decompression de donnees sont de plus en plus 
employes dans les environnements informatiques : en premier lieu dans des programmes 
utilitaires specialises comme gzip, stuff it ou pkzip, qui souvent combinent compres- 
sion et archivage (regroupement d'une hierarchie de fichiers en un seul fichier) ; mais 
aussi dans certains pilotes de disques, qui compressent "au vol" les donnees avant de 
les ecrire sur le disque, augmentant ainsi la capacite apparente de ce dernier ; et meme 
dans l'electronique des modems, qui compressent "au vol" (en temps reel) les donnees 
transmises sur la ligne telephonique, augmentant ainsi le debit des transmissions. 

En guise d'exemple tres simple d'algorithme de compression, mentionnons la 
methode dite run-length encoding, qui consiste a representer toute sequence de n fois 
le meme octet c par un code special signifiant "repetition", suivi de l'octet c, suivi 
du nombre de repetitions n. Ce codage est plus compact que l'original des que n est 
plus grand que 4. II est interessant sur certains types de fichiers, comme les sorties 
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pour l'imprimante en informatique de gestion, qui comportent de longues sequences 
de blancs (pour aligner) et de tirets (pour tracer des traits). Cependant, il est a peu 
pres inefficace sur d'autres types de fichiers, comme les textes frangais ou les fichiers 
de code executable. 

L'algorithme de compression que nous utilisons dans ce chapitre, l'algorithme de 
Huffman, est plus complique, mais plus efncace car il n'est pas limite a une classe 
particuliere de donnees. Sur des fichiers de texte frangais, il atteint une reduction de 
taille d'environ 35 % en moyenne. Les meilleurs programmes de compression depassent 
60 %, mais ils utilisent des algorithmes encore plus complexes. 

13.2 Plan du programme 

Nous allons programmer la commande compr qui compresse les donnees des fichiers 
qu'elle traite. Les fichiers compresses sont renommes en ajoutant le suffixe . cpr a leur 
nom. Quand on Pappelle avec l'option -d, la commande compr decompresse les fichiers 
qu'on lui donne en argument. 

Nous commengons par une fonction commune a la compression et a la decompression, 
qui se charge d'ouvrir les fichiers et d'afficher les erreurs d'entree-sortie. Cette tache 
conceptuellement simple est en pratique fort encombree par la recuperation et 
l'affichage des erreurs ; c'est le prix a payer pour obtenir des programmes qui reagissent 
bien face aux situations exceptionnelles. 

Fichier compr. ml 

#open "sys" ; ; 
exception Erreur; ; 

let traite_f ichier traitement nom_entree nom_sortie = 
let entree = 

try open_in_bin nom_entree 
with Sys_error message -> 

prerr_endline ("Erreur a l'ouverture de " " nom_entree 
~ " : " " message) ; 

raise Erreur in 
let sortie = 

try open_out_bin nom_sortie 
with Sys_error message -> 

close_in entree; 

prerr_endline ("Erreur a la creation de " " nom_sortie 
" : " message) ; 

raise Erreur in 

try 

traitement entree sortie; 

close_in entree; close_out sortie; remove nom_entree 
with Sys_error message -> 

close_in entree; close_out sortie; remove nom_sortie; 
prerr_endline ("Erreur pendant le traitement de " 
nom_entree " : " message) ; 

raise Erreur; ; 



Plan du programme 
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La fonction commence par ouvrir un canal d'entree et un canal de sortie sur les 
fichiers indiques, au moyen des fonctions open_in_bin et open_out_bin. Les fonctions 
de bibliotheque open_in_bin et open_out_bin ouvrent les canaux en mode "binaire", 
garantissant que les caracteres lus ou ecrits sur le canal sont exactement ceux que 
contiennent le fichier. Au contraire, les fonctions open_in et open_out ouvrent les 
canaux en mode "texte" ; sur certaines implementations de Caml Light, il se produit 
alors des traductions (en particulier sur les caracteres de fin de lignes) au moment de 
la lecture et de l'ecriture. Les fichiers a compresser ne contiennent pas forcement du 
texte ; il est done necessaire d'operer en mode "binaire" pour etre certain de retrouver 
les fichiers a l'identique apres une compression suivie d'une decompression. La par- 
tie difficile du travail, e'est-a-dire la compression proprement dite, est assuree par la 
fonction traitement passee en argument a traite_f ichier. Cette fonction regoit un 
canal ouvert sur l'entree et un canal ouvert sur la sortie. Elle est censee compresser ou 
decompresser son entree sur sa sortie. Lorsque la compression s'acheve sans erreur, on 
ferme les canaux d'entree et de sortie (fonctions close_in et close_out) et on efface 
le fichier d'entree (fonction remove du module sys). Aux yeux de Putilisateur, tout se 
passe comme si on avait remplace le fichier d'entree par le fichier de sortie. 

Toutes les fonctions d'entree-sortie declenchent l'exception Sys_error (du mod- 
ule sys) quand une erreur se produit, avec un message explicatif en argument de 
l'exception. On intercepte done cette exception, et on affiche un message sur la sor- 
tie d'erreur standard du processus. La fonction prerr_endline ecrit une chaine de 
caracteres suivie d'un retour a la ligne sur la sortie d'erreur standard. En cas d'erreur, 
on detruit le fichier de sortie s'il a deja ete cree, et on declenche l'exception Erreur. 
On prend bien soin de fermer les canaux quand on n'en a plus besoin, y compris en cas 
d'erreurs. Ce n'est pas uniquement par souci d'elegance : les systemes d'exploitation 
limitent le nombre de canaux d'entrees-sorties simultanement ouverts. Si on oublie de 
fermer les canaux inutilises, on se trouve vite en situation de penurie de canaux. 

Nous allons maintenant utiliser deux fois la fonction traite_f ichier, pour definir 
les fonctions de compression et de decompression d'un fichier. 

Fichier compr.ml 

let compresse_f ichier nom_fichier = 

traite_f ichier huffman compresse 

nom_f ichier (nom_f ichier ~ ".cpr");; 

let decompresse_f ichier nom_f ichier = 

let longueur = string_length nom_f ichier in 
if longueur < 4 

I | sub_string nom_f ichier (longueur - 4) 4 <> ".cpr" then 
let nom_entree = nom_f ichier " ".cpr" 
and nom_sortie = nom_f ichier in 

traite_f ichier huffman decompresse nom_entree nom_sortie 

else 

let nom_entree = nom_f ichier 

and nom_sortie = sub_string nom_f ichier 0 (longueur - 4) in 
traite_f ichier huffman decompresse nom_entree nom_sortie;; 



Dans le cas de la decompression, le nom du fichier compresse peut etre donne avec 
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ou sans l'extension . cpr. Si le nom fourni ne se termine pas par l'extension . cpr, c'est 
en fait le nom du fichier de sortie ; on lui ajoute . cpr pour obtenir le vrai nom du 
fichier d'entree. Si le nom fourni se termine par l'extension . cpr, on l'enleve (par un 
sub_string bien calcule) pour obtenir le nom du fichier de sortie. 

Les deux fonctions huffman compresse et huffman decompresse proviennent 

du module huffman, que nous etudierons en detail dans la prochaine section. Pour 
l'instant, contentons-nous de l'interface de ce module : 

Fichier huf fman.mli 

value compresse : in_channel -> out_channel -> unit 
and decompresse : in_channel -> out_channel -> unit;; 



Le point d'entree dans le programme reconnait l'option -d et applique a bon escient 
les fonctions compresse_f ichier ou decompresse_f ichier a chaque argument fourni 
sur la ligne de commande. Les arguments donnes a une commande sont accessibles 
dans le tableau de chaines de caracteres command_line, du module de bibliotheque 
sys. L'element d'indice zero contient le nom d'appel de la commande ; les elements 
suivants, les arguments de la commande. 

Fichier compr.ml 

if sys interactive then () else 

begin 

let erreur = ref false in 

if vect_length command_line >= 2 & command_line . (1) = "-d" then 
for i = 2 to vect_length command_line - 1 do 
try decompresse_f ichier command_line . (i) 
with Erreur -> erreur := true 
done 
else 

for i = 1 to vect_length command_line - 1 do 

try compresse_f ichier command_line . (i) 

with Erreur -> erreur := true 
done ; 

exit (if ! erreur then 2 else 0) 
end; ; 



Les deux boucles recuperent l'exception Erreur pour passer au prochain argument de 
la ligne de commande en cas d'erreur. On positionne cependant le drapeau erreur, 
pour pouvoir renvoyer au systeme d'exploitation un code d'erreur approprie : le code 
zero si aucune erreur ne s'est produite, un code non nul sinon. 

II est maintenant temps de passer aux choses serieuses : Pimplementation des algo- 
rithmes de compression et de decompression. 

13.3 L'algorithme de Huffman 

L'algorithme de compression de Huffman repose sur l'observation que certains car- 
acteres apparaissent plus frequemment que d'autres dans les fichiers. Par exemple, 
dans un fichier de texte, e apparait plus souvent que z et l'espace apparait plus souvent 
que le caractere tilde. Au lieu de coder chaque caractere sur huit bits quelle que soit 
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sa frequence, nous allons attribuer des codes de longueur variable aux caracteres, en 
faisant en sorte que les caracteres les plus frequents regoivent des codes courts (moins 
de huit bits) et les caracteres les plus rares des codes longs (eventuellement plus de huit 
bits). Par exemple, le codage suivant conviendrait pour du texte ecrit en frangais : 

espace 110 t 1000 

e 010 i 0010 

s 1001 r 0001 

a 0011 u 11101 

n 0111 1 10111 

pour les lettres les plus frequentes et ainsi de suite jusqu'aux lettres les plus rares : 

X 11100110111100111 
Y 011010001010000010 
Z 011010001010000001 



Compression 

Compresser un fichier consiste a remplacer chaque octet du fichier par la suite 
de bits qui l'encode, puis a ecrire octet par octet la suite de bits obtenus. Avec le 
codage ci-dessus, le mot utile suivi d'un espace est transforme en la suite de bits 
11101.1000.0010.10111.010.110, c'est-a-dire en les trois octets 55 (11101100), 168 
(00010101) et 107 (11010110). (On a choisi arbitrairement de lire les nombres binaires 
avec le bit de poids faible a gauche et le bit de poids fort a droite.) Le texte compresse 
occupe trois octets, au lieu de six pour le texte d'origine. 

Pour eviter les problemes qui se posent quand le dernier octet du fichier compresse 
n'est pas entierement rempli, on convient de terminer tous les fichiers compresses par 
un code special de fin. Ce code n'apparaissant qu'une fois pour tout le fichier, il peut 
etre choisi assez long. 

Voici maintenant la fonction qui compresse un fichier (correspondant au descripteur 
de fichier entree) et ecrit le resultat sur un autre fichier (correspondant au descripteur 
de fichier sortie). 

Fichier huff man. ml 

type table_de_codage = 

{ caractere: int list vect; 
mutable fin: int list };; 

let encode entree sortie codage = 

esbit initialise () ; 

try 

while true do 

let c = input_char entree in 

do_list (esbit ecrire_bit sortie) 

codage . caractere . (int_of_char c) 

done 

with End_of_file -> (* fin du fichier d'entree *) 

do_list (esbit ecrire_bit sortie) codage. fin; 

esbit finir sortie;; 
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Le codage employe est represents par un enregistrement du type table_de_codage. 
La partie caractere est un tableau de 256 codes (un pour chaque octet). La partie 
fin est le code signalant la fin du fichier compresse. Les codes sont represented par des 
listes d'entiers, 0 ou 1. 

La lecture du fichier d'entree se fait avec la fonction input_char de la bibliotheque 
standard. Cette fonction renvoie le prochain caractere du canal d'entree passe en ar- 
gument. Elle declenche l'exception End_of_file lorsque la fin du fichier est atteinte. 
La maniere habituelle de lire tous les caracteres d'un fichier est de faire input_char 
a l'interieur d'une boucle infinie while true do . . . done. L'exception End_of _f ile de 
fin de fichier fait sortir de la boucle ; elle doit etre recuperee par une construction 
try . . . with. 

La fonction encode fait appel a un module esbit (pour « entrees-sorties bit a 
bit »), qui permet d'ecrire sur un fichier non pas octet par octet comme les fonctions 
d'entree-sortie usuelles, mais bit par bit. Nous implementerons ce module plus tard. 
Pour l'instant, voici son l'interface : 

Fichier esbit .mli 

value initialise : unit -> unit 

and ecrire_bit : out_channel -> int -> unit 

and lire_bit : in_channel -> int 

and finir : out_channel -> unit;; 



Les fonctions ecrire_bit et lire_bit permettent d'ecrire ou de lire un bit, 
represente par les entiers 0 ou 1. La fonction initialise doit etre appelee avant le 
premier appel a ecrire_bit ou lire_bit. La fonction finir doit etre appelee apres 
le dernier appel a ecrire_bit, pour effectuer les eventuelles ecritures en attente. 
La fonction encode montre un bel exemple d'application partielle : on itere, avec 

la fonctionnelle do_list, la fonction (esbit ecrire_bit sortie), obtenue par 

application partielle de esbit ecrire_bit a la sortie courante ; cette fonction n'est 

done calculee qu'une fois, avant de lancer Piteration. 

Decompression 

La decompression se heurte a un petit probleme : dans la suite de bits produite par 
l'algorithme de compression, rien ne marque les separations entre les codes des differents 
octets. II est cependant possible de reconstituer le texte d'origine, a condition que le 
codage employe ne soit pas ambigu : aucun code d'un caractere ne doit etre prefixe du 
code d'un autre caractere. Supposons par exemple que le caractere o a pour code 0101, 
qui a pour prefixe 010, le code de e. Alors la suite de bits 01010111 represente aussi 
bien el que on. Au contraire, si aucun code n'est prefixe d'un autre, il y a une et une 
seule maniere de decouper la suite de bits contenue dans le fichier compresse. 

Pour decrire plus precisement le processus de decodage, il est commode de 
representer le codage sous la forme d'un arbre de Huffman. C'est est un arbre binaire 
dont les feuilles sont des caracteres. Tout codage non ambigu est represente par un 
arbre de Huffman, de la maniere suivante : le code de chaque caractere est le chemin 
qui mene de la racine de l'arbre a la feuille portant ce caractere, avec la convention 
que 0 signifie « prendre la branche de gauche » et 1 signifie « prendre la branche de 
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droite». Par exemple, voici l'arbre de Huffman pour le codage donne page 241 (nous 
representons les arbres avec la racine en haut et les feuilles en bas, comme c'est l'usage 
en informatique) : 




1 u 



La decompression est tres simple quand on dispose de l'arbre de Huffman du codage. 
On part de la racine de l'arbre. Si on est sur un nceud, on lit le prochain bit du fichier 
compresse et on va a gauche si c'est zero et a droite si c'est un. Quand on aboutit sur 
une feuille, on emet la lettre correspondante et on repart de la racine de l'arbre. Cet 
algorithme s'ecrit sans difficultes en Caml. (On a introduit un second type de feuille, 
le constructeur Fin, pour representer le code de fin de fichier.) 

Fichier huf f man. ml 

type arbre_de_huf fman = 

I Lettre of char 

I Fin 

I Noeud of arbre_de_huf fman * arbre_de_huf fman; ; 

let decode entree sortie arbre = 

esbit initialise () ; 

let rec parcours = function 
I Fin -> () 
I Lettre c -> 

output_char sortie c; parcours arbre 
I Noeud (gauche, droite) -> 

if esbit lire_bit entree = 0 

then parcours gauche 

else parcours droite in 
parcours arbre; ; 



Determination d'un codage adapte 

On peut utiliser les fonctions encode et decode avec un codage de Huffman fixe, 
determine une fois pour toutes a partir des frequences moyennes d'apparition des car- 
acteres dans les textes frangais (par exemple). Cependant, la compression risque d'etre 
peu efficace sur d'autres types de textes (des programmes Caml, par exemple) ou sur 
des fichiers contenant autre chose que du texte (des images numerisees, par exemple). 
Pour plus de generalite, il vaut mieux determiner les frequences des caracteres dans 
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le fichier a compresser, puis construire un codage de Huffman adapte a cette distribu- 
tion de frequence particuliere. Bien entendu, le decompresseur ne peut pas deviner le 
codage que le compresseur a utilise ; le compresseur ecrit done ce codage en tete du 
fichier compresse. 

Calculer les frequences d'apparition (e'est-a-dire le nombre d'occurrences) des car- 
acteres dans un fichier ne presente aucune difficulte. 

Fichier huf f man. ml 

let frequences entree = 

let fr = make_vect 256 0 in 

begin try- 
while true do 

let c = int_of _char (input_char entree) in fr.(c) <- fr.(c) + 1 
done 

with End_of_file -> () 

end; 

fr;; 



La fonction ci-dessus renvoie un tableau de 256 entiers qui donne le nombre 
d'occurrences de chaque caractere dans le fichier entree. Determiner un codage adapte 
a ce tableau de frequences est plus difficile. Voici un algorithme qui construit un 
arbre de Huffman petit a petit, a partir d'un ensemble de feuilles, une par caractere 
apparaissant dans le fichier, plus une pour la fin du fichier. Chaque feuille est annotee 
par la frequence d'apparition du caractere correspondant : 

40 60 30 25 20 10 1 
a e i o u y fin 

On choisit deux feuilles ayant la plus petite frequence et on les regroupe en un arbre : 

40 60 30 25 20 11 
a e i o u 

0 

y fin 

L'arbre construit regoit comme frequence la somme des frequences des deux lettres qu'il 
regroupe. On repete ensuite ce precede, regroupant a nouveau les deux arbres ayant la 
plus petite frequence, jusqu'a obtenir finalement un arbre unique. Dans notre exemple, 
le regroupement des arbres de frequences 1 1 et 20 donne : 

40 60 30 25 31 




y fin 



On regroupe ensuite les arbres de frequences 30 et 25, puis 31 et 40, puis 55 et 60. En 
regroupant les deux arbres restants, on obtient enfin l'arbre de Huffman recherche : 
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y fin 

Traduisons maintenant cet algorithme en Caml. 

Fichier huf f man. ml 

let construire_arbre frequences = 

let prio = ref (fileprio ajoute fileprio vide 1 Fin) in 

let nombre_d'arbres = ref 1 in 
for c = 0 to 255 do 

if frequences . (c) > 0 then begin 

prio := fileprio ajoute !prio 

frequences . (c) (Lettre(char_of _int c)); 
incr nombre_d'arbres 
end 
done; 

for n = !nombre_d'arbres downto 2 do 

let (freql, arbrel, priol) = fileprio extraire !prio in 

let (freq2, arbre2, prio2) = fileprio extraire priol in 

prio := fileprio ajoute prio2 

(freql + freq2) (Noeud(arbrel , arbre2)) 

done; 

let (_, arbre, _) = fileprio extraire !prio in 

arbre ; ; 



Pour gerer l'ensemble d'arbres et les frequences associees, on a utilise les fonctions 
d'un module fileprio implement ant la structure de donnees connue sous le nom de 
file d'attente avec priorite. Voici l'interface de ce module : 

Fichier fileprio .mli 

type 'at;; 
value vide: 'a t 

and ajoute: 'a t -> int -> 'a -> 'at 

and extraire: 'a t -> int * 'a * 'at;; 
exception File_vide;; 



Les deux operations de base sur une file d'attente avec priorite sont l'ajout d'un 
element dans la file, avec une certaine priorite (un entier), et l'extraction d'un element 
ayant la priorite la plus faible. L'operation d'extraction renvoie, en plus de Pelement 
extrait, la priorite de cet element et la file d'attente privee de cet element. Elle declenche 
l'exception File_vide si on l'applique a la file vide. On donne en annexe de ce chapitre 
(section 13.4) deux implementations possibles du module fileprio. 

A partir de l'arbre de Huffman renvoye par la fonction construire_arbre, on 
calcule une table de codage adaptee a la fonction encode, comme suit. 
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Fichier huf f man. ml 

let arbre_vers_codage arbre = 

let codage = { caractere = make_vect 256 [] ; fin = [] } in 
let rec remplir_codage prefixe = function 
I Lettre c -> 

codage . caractere . (int_of _char c) <- rev prefixe 
I Fin -> 

codage. fin <- rev prefixe 
I Noeud(arbrel , arbre2) -> 

remplir_codage (0 :: prefixe) arbrel; 

remplir_codage (1 : : prefixe) arbre2 in 
remplir_codage [] arbre; 
codage ; ; 



La fonction locale remplir_codage effectue une exploration exhaustive de l'arbre. Son 
argument prefixe contient le chemin (inverse) de la racine jusqu'au noeud courant. 
Lorsqu'on atteint une feuille, on remet le chemin a l'endroit et on le stocke dans la case 
correspondante du codage. 

Compression et decompression de fichiers 

II est temps de recoller tous les morceaux pour definir les fonctions de compression 
et de decompression d'un fichier. Le dernier probleme a resoudre est celui du stockage 
du codage utilise a la compression en tete du fichier compresse. Pour rester simple, 
nous stockons ce codage sous la forme de son arbre de Huffman, en utilisant les fonc- 
tions d'entree-sortie structures output_value et input_value. La fonction predefinie 
output_value, de type out_channel -> 'a -> unit, ecrit une representation de son 
argument sous forme d'une suite d'octets sur le canal specifie. L'argument est une struc- 
ture Caml quelconque (ou presque : elle ne doit pas contenir de valeurs fonctionnelles) . 
La fonction input_value effectue l'operation inverse : elle lit une suite d'octets sur un 
canal et renvoie la structure Caml correspondante. Ces deux fonctions sont tres rapi- 
des et evitent d'avoir a ecrire soi-meme des fonctions de conversion entre structures 
de donnees et suites d'octets. Le format de donnees utilise pour stocker l'objet dans le 
fichier n'est pas du texte directement lisible par l'utilisateur, mais un codage binaire 
de l'objet. II est destine a etre relu par des machines, non par des humains. 

Un fichier compresse se compose done d'un arbre de Huffman ecrit par 
output_value, suivi par les donnees compressees ecrites par encode. 

Fichier huff man. ml 

let compresse entree sortie = 

let freq = frequences entree in 

let arbre = construire_arbre freq in 

let codage = arbre_vers_codage arbre in 

output_value sortie arbre; 

seek_in entree 0; 

encode entree sortie codage;; 



La fonction predefinie seek_in positionne le pointeur de lecture d'un canal d'entree. Le 
pointeur de lecture du canal entree, qui est a la fin du fichier au retour de la fonction 
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frequences, est done remis au debut du fichier par l'appel seek_in entree 0. Cela 
permet a encode de relire les octets du fichier a compresser. 

Fichier huf f man. ml 

let decompresse entree sortie = 

let arbre = input_value entree in 

decode entree sortie arbre;; 



13.4 Annexes 

Pour finir le programme de compression, il reste a implementer les files d'attente 
avec priorite (module f ileprio) et les entrees-sorties bit a bit (module esbit). 

Files d'attente avec priorite 

On rappelle l'interface du module f ileprio : 

Fichier f ileprio .ml i 

type 'at;; 
value vide: 'a t 

and ajoute: 'a t -> int -> 'a -> 'at 

and extraire: 'a t -> int * 'a * 'at;; 
exception File_vide;; 



Une premiere representation des files d'attente consiste en des listes de paires (pri- 
orite, element), triees par ordre de priorite croissante. De la sorte, l'element de priorite 
minimale est toujours en tete de la liste et la fonction extraire est tres simple. 

Fichier f ileprio .ml 

type 'a t == (int * 'a) list;; 
let vide = [] ; ; 
let extraire = function 
I [] -> raise File_vide 

I (prio, elt) :: reste -> (prio, elt, reste);; 



La fonction ajoute est un peu plus compliquee: il faut parcourir la liste jusqu'a 
trouver un element de priorite plus grande que l'element a inserer. 

Fichier f ileprio .ml 

let rec ajoute file prio elt = 
match file with 
I [] -> [(prio, elt)] 
I (priol, eltl) :: reste -> 
if prio < priol 
then (prio, elt) :: reste 

else (priol, eltl) :: ajoute reste prio elt;; 



Avec cette implementation des files d'attente, Poperation extraire est en temps con- 
stant, mais Poperation ajoute est en temps n/2 en moyenne et n dans le pire des cas, 
oil n est le nombre d'elements de la file d'attente. Dans l'algorithme de Huffman, on 
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insere jusqu'a 256 elements dans des files de 0 a 255 elements, ce qui donne, au pire, a 
peu pres 32000 tours dans la fonction ajoute. II est a craindre que cette implementation 
naive ne soit pas assez efficace. 

Voici une seconde implementation du module f ileprio, oil les files sont representees 
par des arbres tournoi (aussi appeles heaps, « tas » dans la litterature en anglais) . 

Fichicr f ileprio .ml 

type 'a t = I Vide I File of int * 'a* 'at*' at;; 
let vide = Vide ; ; 



Les feuilles de l'arbre (constructeur Vide) ne portent pas d'information. Les nceuds 
de l'arbre (constructeur File) portent chacun un element de la file, avec sa priorite, 
plus deux sous- arbres, traditionnellement appeles «le fils gauche » et «le fils droit ». On 
impose la condition suivante : 

La priorite d'un nceud est inferieure ou egale a la priorite de tous les nceuds 
contenus dans ses fils gauche et droit. 

Ainsi, les priorites vont en croissant quand on se deplace de la racine vers une feuille. 
Voici un exemple d'arbre binaire croissant : 




Comme dans le cas de l'implementation par des listes ordonnees, Pelement de la 
file ayant la plus faible priorite est facile a trouver : c'est toujours Pelement a la racine 
de l'arbre. Pour implementer extraire, il reste done a savoir combiner les deux fils de 
la racine en un seul arbre binaire croissant, qui represente la file de depart privee de 
son element le moins prioritaire. La racine du nouvel arbre est Pelement de plus petite 
priorite parmi ceux qui restent. Ce ne peut etre que le sommet du fils gauche ou le 
sommet du fils droit, puisque tous les autres nceuds sont moins prioritaires. On deplace 
done celui des deux sommets qui a la plus petite priorite, pour le mettre a la racine. 




Bien entendu, il y a maintenant un trou dans l'un des deux fils, trou qu'il faut a son 
tour combler en repetant le meme raisonnement. 
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La procedure s'arrete lorsqu'elle atteint une feuille de l'arbre. Le resultat est bien un 
arbre binaire croissant contenant les memes elements que celui de depart, moins la 
racine. 

Fichicr f ileprio .ml 

let rec enleve_sommet = function 
I Vide -> raise File_vide 
I File(prio, elt, Vide, Vide) -> Vide 
I File(prio, elt, gauche, Vide) -> gauche 
I File(prio, elt, Vide, droite) -> droite 
I File(prio, elt, (File (prio_g, elt_g, _, _) as gauche), 

(File(prio_d, elt_d, _, _) as droite)) -> 
if prio_g < prio_d 

then File(prio_g, elt_g, enleve_sommet gauche, droite) 
else File(prio_d, elt_d, gauche, enleve_sommet droite);; 

let extraire = function 
I Vide -> raise File_vide 

I File(prio, elt, _, _) as file -> (prio, elt, enleve_sommet file);; 



L'ajout d'un element a un arbre binaire croissant suit le meme principe. Si le 
nouvel element a une priorite plus haute que la racine, la fonction d'ajout s'appelle 
recursivement pour l'ajouter au fils gauche ou au fils droit. Si le nouvel element est 
moins prioritaire que la racine, elle place le nouvel element a la racine et s'appelle 
recursivement pour ajouter l'ancienne racine dans un des deux fils. La fonction s'arrete 
lorsqu'elle arrive sur une feuille. Void un exemple d'insertion de z avec la priorite 4, 
oil Ton choisit d'aller une fois a gauche, puis une fois a droite. 




Dans la descente recursive, le choix entre fils gauche et fils droit est arbitraire. Cepen- 
dant, il ne faut pas choisir toujours le fils gauche ou toujours le fils droit : apres plusieurs 
ajouts, l'arbre obtenu serait tres desequilibre, avec une longue branche vers la gauche 
ou vers la droite. Pour que l'extraction et l'ajout soient efficaces, il faut que l'arbre 
ait les branches les plus courtes possible, c'est-a-dire qu'il soit aussi bien equilibre que 
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possible. Une maniere d'obtenir ce resultat est d'inserer toujours du meme cote (disons, 
a droite), mais de permuter les fils gauche et droit a chaque descente recursive. Cela 
suffit a garantir que l'arbre est toujours equilibre, meme apres une longue sequence 
d'ajouts. 

Fichicr f ileprio .ml 

let rec ajoute file prio elt = 
match file with 
I Vide -> 

File (prio, elt, Vide, Vide) 
I File(priol, eltl, gauche, droite) -> 
if prio <= priol 

then File (prio, elt, ajoute droite priol eltl, gauche) 
else File(priol, eltl, ajoute droite prio elt, gauche);; 



Pour ce qui est de l'efficacite de cette implementation, on constate qu'un appel de 
ajoute ou de extraire parcourt au plus une branche entiere de l'arbre. Comme l'arbre 
est equilibre, la longueur d'une branche est de l'ordre de log 2 n, ou n est le nombre 
d'elements dans l'arbre. L'ajout et l'extraction se font done en temps logarithmique en 
le nombre d'elements de la file d'attente, ce qui donne une bien meilleure efficacite que 
l'implementation a base de listes. En particulier, la construction de l'arbre de Huffman 
necessite moins de 2000 tours dans la fonction ajoute, soit huit fois moins qu'avec 
l'implementation naive. 

Entrees-sorties par bits 

Nous passons maintenant aux entrees-sorties bit a bit (module esbit). 

Fichicr esbit .mli 

value initialise : unit -> unit 

and ecrire_bit : out_channel -> int -> unit 

and lire_bit : in_channel -> int 

and finir : out_channel -> unit;; 



Les entrees-sorties standard de Caml Light presentent les fichiers comme une suite 
d'octets. Pour voir un fichier comme une suite de bits, nous allons traiter les octets 
comme des paquets de huit bits. Arbitrairement, on ordonne les bits des poids faibles 
vers les poids forts. Ainsi, l'entier 143, e'est-a-dire 10001111 en binaire, est vu comme 
la suite de huit bits 1, 1, 1, 1, 0, 0, 0, 1. 

Pour transformer des operations bit a bit en operations octet par octet, nous util- 
isons un tampon d'au plus huit bits contenant l'octet en cours d'ecriture ou de lecture. 
Le tampon est represents par un enregistrement a deux champs mutables, le champ val 
qui contient l'octet en cours et le champ nbits qui indique le nombre de bits valides 
dans cet octet. 

Fichicr esbit .ml 

type tampon = { mutable val: int; mutable nbits: int };; 
let tampon = { val = 0; nbits = 0 }; ; 

let initialise () = tampon. val <- 0; tampon. nbits <- 0;; 
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Voici par exemple la situation en cours d'ecriture. (On a marque en grise les bits 
qui ont ete ecrits par la fonction ecrire_bit.) 

tampon.nbits 



Tampon : 
Fichier : 



11010 



000 



tampon. val 



11111110 



10101010 



00000001 



t 



Position courante d'ecriture 

L'ecriture d'un bit consiste simplement a le stocker dans le bit numero nbits de 
val, puis a incrementer nbits. Lorsque nbits atteint 8, on ecrit l'octet val sur lc 
fichier et on repart avec nbits valant 0. 

Fichier esbit .ml 

let ecrire_bit sortie bit = 

tampon. val <- tampon. val lor (bit lsl tampon.nbits); 
tampon.nbits <- tampon.nbits + 1; 
if tampon.nbits >= 8 then begin 

output_char sortie (char_of_int tampon. val); 
tampon. val <- 0; 
tampon.nbits <- 0 
end; ; 

let finir sortie = 

if tampon.nbits > 0 then 

output_char sortie (char_of_int tampon. val) ; ; 

Les operateurs infixes lor et lsl sont respectivement le «ou» bit a bit entre entiers et 
le decalage logique a gauche. En particulier, bit lsl tampon.nbits est un entier avec 
le bit numero tampon.nbits egal a bit et tous les autres bits nuls. 

La situation en cours de lecture est tres symetrique. La seule difference est que 
nbits contient maintenant le nombre de bits restant a lire dans val. (On a marque en 
grise les bits qui ont ete lus par la fonctions lire_bit.) 

tampon.nbits 



Tampon : 
Fichier : 



10011 



000 



tampon. val 



11111110 


10101010 


00000001 


110 


10011 


00101111 


11010101 



Position courante de lecture 



Fichier esbit .ml 

let lire_bit entree = 

if tampon.nbits <= 0 then begin 

tampon. val <- int_of _char (input_char entree); 
tampon.nbits <- 8 
end; 

let res = tampon. val land 1 in 
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tampon. val <- tampon. val lsr 1; 
tampon. nbits <- tampon. nbits - 1; 
res; ; 



Les operateurs infixes land et lsr sont respectivement le « et » bit a bit entre entiers 
et le decalage logique a droite. 

13.5 Mise en pratique 

Tous les modules du programme sont maintenant ecrits ; il reste a les compiler et a 
les lier entre eux. 

$ camlc -c esbit.mli 
$ camlc -c esbit.ml 
$ camlc -c fileprio.mli 
$ camlc -c fileprio.ml 
$ camlc -c huff man. mli 
$ camlc -c huff man. ml 
$ camlc -c compr.ml 

$ camlc -o compr esbit.zo fileprio.zo huffman.zo compr.zo 
Pour essayer le programme : 

$ camlrun compr monfichier 

$ camlrun compr -d monfichier . cpr 

Une autre maniere de proceder est de compiler le programme a partir du systeme 
interactif, avec les commandes compile et load_object, comme decrit au chapitre 10, 

section 10.6. La compression s'effectue alors par compr compresse_f ichier "f ich" 

et la decompression par compr decompresse_f ichier "f ich. cpr". 

13.6 Pour aller plus loin 

L'algorithme de Huffman employe ici n'est certainement pas le meilleur algorithme 
de compression existant a Pheure actuelle. Outre un taux de compression pas tres eleve, 
il presente deux inconvenients pratiques : le fichier compresse doit contenir l'arbre de 
Huffman construit au codage et le fichier d'entree doit etre lu deux fois. Le premier trait 
est genant pour les petits fichiers, pour lesquels la taille de l'arbre de Huffman n'est pas 
negligeable devant la taille du fichier produit ; en particulier, le fichier compresse peut 
devenir plus gros que le fichier d'entree. Le deuxieme trait implique que l'algorithme 
de Huffman n'est pas adapte a la compression "au vol" de donnees, comme dans le cas 
des donnees qui transitent a tr avers un modem et une ligne telephonique. 

II existe une variante de l'algorithme de Huffman qui ne presente pas ces deux 
inconvenients : le codage de Huffman dynamique. L'idee est de changer d'arbre de 
Huffman en cours de compression. On part d'un arbre de Huffman equilibre, corre- 
spondant au cas ou tous les caracteres ont la meme frequence. On lit les caracteres sur 
Pentree, en tenant a jour les frequences des caracteres deja lus. Chaque caractere est 
code avec l'arbre de Huffman courant, puis l'arbre est modifie pour qu'il corresponde 
toujours aux frequences des caracteres deja lus. II n'est pas obligatoire de reconstruire 
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l'arbre a partir de zero a chaque nouveau caractere : on arrive a modifier l'arbre de 
maniere locale et incrementale. Non seulement une deuxieme passe sur l'entree devient 
alors inutile, mais il n'est meme plus necessaire de transmettre l'arbre de Huffman au 
decompresseur : la decompression part du meme arbre initial que la compression, et le 
modifie increment alement a chaque caractere decode, en suivant exactement le meme 
algorithme que le compresseur. De la sorte, l'arbre de decodage et l'arbre de codage 
evoluent en phase. Sur des fichiers assez longs, Palgorithme de Huffman dynamique 
atteint les memes taux de compression que Palgorithme de Huffman statique. 

Pour atteindre des taux de compression plus eleves, il faut passer a une autre famille 
d'algorithmes de compression, dus a Lempel et Ziv, qui exploitent une autre source de 
redondance dans les fichiers de donnees : outre le fait que certains caracteres appa- 
raissent plus frequemment que d'autres, on trouve aussi des sequences de plusieurs 
caracteres qui apparaissent plus frequemment que d'autres. Par exemple, dans un pro- 
gramme Caml, les mots-cles comme let ou function reviennent tres souvent. L'idee 
des algorithmes de Lempel-Ziv est d'attribuer un code a ces chaines plus frequentes 
que les autres, et de les remplacer par leur code. Cette idee se prete a de nombreuses 
variantes, qui different par la methode de reconnaissance des chaines frequentes et par 
la maniere de les coder. Les compresseurs les plus efficaces combinent ces algorithmes 
avec Palgorithme de Huffman dynamique, reinjectant la sortie du premier dans l'entree 
du second, pour tirer parti des deux types de redondance. 

Bibliographie 

Des livres entiers ont ete consacres aux divers algorithmes de compression ; voir 
par exemple Data compression: methods and theory de James Storer (Computer Sci- 
ence Press) et Text compression de Bell, Witten et Cleart (Prentice Hall). Pour ce 
qui est des algorithmes sur les files d'attente, on se reportera a l'un des classiques de 
l'algorithmique, comme par exemple le volume 3 de The art of computer programming, 
de Donald Knuth ( Addison- Wesley) . 
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Ou Von apprend a gerer les RISC. 



EAUCOUP de programmes d'ordinateur servent a simuler des processus 
physiques, l'ordinateur offrant sa puissance de calcul pour faire evoluer les 
nombreux parametres du systeme. Nous ecrivons maintenant un programme 
de ce type : il simule le fonctionnement d'un processeur, ou unite centrale d'ordinateur. 
Le simulateur lit des programmes ecrits dans le langage d'assemblage de notre pro- 
cesseur imaginaire et les execute comme le ferait un processeur reel. Pour l'instant, 
nous ecr irons les programmes assembleur a la main; dans le chapitre 15, nous ver- 
rons comment produire automatiquement ces programmes par traduction a partir d'un 
langage de haut niveau. 

Ce chapitre constitue une introduction au modele de processeurs RISC (reduced 
instruction set computer, processeur a jeu d'instruction reduit). Le lecteur est sup- 
pose connaitre dans ses grandes lignes le fonctionnement d'un processeur et avoir deja 
programme, ne serait-ce qu'une fois, dans un langage d'assemblage. 

14.1 Le pico-processeur 

Cette section decrit l'architecture et le langage du processeur que nous simulons. 
Nous l'appellerons le pico-processeur, car il est encore plus simple que la plupart des 
micro-processeurs actuels. Sous ses airs de simplicity, le pico-processeur reste neanmoins 
tres proche de certains processeurs RISC bien connus, tels que 1' Alpha ou le MIPS. 

Architecture 

Vu du programmeur, le pico-processeur se compose d'un ensemble de 32 reg- 
istres, d'une memoire de code dans laquelle est stocke le programme a executer et 
d'une memoire de donnees dans laquelle le programme peut stocker des resultats 
intermediaries. 

Chaque registre contient un mot machine, que nous prenons de meme taille que les 
entiers de Caml Light (type int), c'est-a-dire 31 bits. La plupart des machines actuelles 
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Registres : Memoire de donnees : Memoire de code : 



0 


Adresse 0 
Adresse 4 
Adresse 8 


donnee 0 


Adresse 0 
Adresse 4 
Adresse 8 


instruction 0 


registre 1 


donnee 1 


instruction 1 


registre 2 


donnee 2 


instruction 2 


registre 31 











Figure 14.1: Le modele du programmeur de la pico-machine 



emploient des mots de 32 bits; les mots de 31 bits sont irrealistes, mais simplifient 
considerablement la simulation. 

Les registres sont numerates de 0 a 31. lis sont « interchangeables », en ceci que 
n'importe quel registre peut etre argument ou resultat de n'importe quelle operation : 
il n'y a pas de registre specifique a telle ou telle operation. Cependant, le registre 0 a 
une propriete particuliere : il contient toujours l'entier zero. Autrement dit, ecrire dans 
ce registre n'a aucun effet : il garde sa valeur d'origine, c'est-a-dire 0. On peut douter de 
Putilite d'un tel registre contenant toujours la meme information. Et pourtant, il sert 
beaucoup : il permet de regulariser et de simplifier le jeu d'instructions, comme nous le 
verrons dans les exemples. 

Tout comme le banc de registres, la memoire de donnees est elle aussi organisee en 
mots. Comme sur les machines 32 bits modernes, les adresses des cases memoire sont 
multiples de 4 : le premier mot est a l'adresse zero, le deuxieme a l'adresse 4, etc. 

Enfin, la memoire de code contient une instruction par case. Les adresses de code 
sont des entiers : tres realistement nos instructions sont toutes codees sur un mot ma- 
chine ; leurs adresses sont done aussi multiples de 4. Cependant, pour simplifier la 
simulation, nous les rangeons dans un tableau Caml et les representons non pas par un 
entier mais par une valeur de type somme. Ainsi, la premiere instruction est a l'adresse 
zero, mais rangee dans la case numero 0 du tableau des instructions, la deuxieme in- 
struction est a l'adresse quatre, mais rangee dans la case numero 1 du tableau des 
instructions, etc. 

Cette division de la memoire en deux zones n'est pas courante dans les processeurs. 
En general, la memoire est constitute de mots ou d'octets ou l'on range indifferemment 
des donnees ou des instructions. C'est encore une fois pour simplifier la simulation que 
nous avons divise la memoire en deux zones, pour faciliter le decodage des instructions, 
que nous gardons sous forme symbolique. L'alternative aurait ete de coder effectivement 
les instructions sous la forme de nombres entiers et de les decoder au moment de 
leur execution. La procedure de codage et de decodage n'est pas tres interessante et 
alourdirait inutilement notre presentation. 

Jeu d'instructions 

Le jeu d'instructions de la pico-machine est resume dans la figure 14.2. Comme sur 
la plupart des processeurs RISC, les operations arithmetiques et logiques ont un format 
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Notations : r nom de registre (r 0, r 1, . . . , r 31) 

o nom de registre ou constante entiere (12, -34, . . . ) 
a constante entiere 



Syntaxe 


Instruction 


Effet 


add(n,o, r 2 ) 


Addition entiere 


r 2 regoit r\ + o 


sub(n,o, r 2 ) 


Soustraction entiere 


r 2 regoit r\ — o 


mult(ri, o, r 2 ) 


Multiplication entiere 


r 2 regoit r\ * o 


div(n,o, r 2 ) 


Quotient entier 


r 2 regoit r\jo 


and(n,o, r 2 ) 


« Et » bit a bit 


r 2 regoit r\ «et» o 


or(ri,o, r 2 ) 


« Ou » bit a bit 


r 2 regoit n «ou» o 


xor(ri,o, r 2 ) 


« Ou exclusif » bit a bit 


r 2 regoit r\ «ou exclusif » o 


shl(ri,o, r 2 ) 


Decalage arithmetique 


r 2 regoit r\ decale a gauche 




logique a gauche 


de o bits 


shr (n,o, r 2 ) 


Decalage arithmetique 


r 2 regoit r\ decale a droite 




logique a droite 


de o bits 


slt(ri,o, r 2 ) 


Test «inferieur» 


r 2 regoit 1 si r\ < o, 0 sinon 


sle(n,o, r 2 ) 


Test « inferieur ou egal » 


r 2 regoit 1 si r\ < o, 0 sinon 


seq(ri,o, r 2 ) 


Test «egal» 


r 2 regoit 1 si r\ = o, 0 sinon 


load(ri, o, r 2 ) 


Lecture memoire 


r 2 regoit le contenu de 






l'adresse r\ + o 


store(ri, o, r 2 ) 


Ecriture memoire 


le contenu de r 2 est ecrit a 






l'adresse r\ + o 


jmp(o,r) 


Branchement 


saute a l'adresse o et stocke 






l'adresse de l'instruction 






suivant le jmp dans r 


braz(r, a) 


Branchement si zero 


saute a l'adresse a si r = 0 


branz(r, a) 


Branchement si pas zero 


saute a l'adresse a si r ^ 0 


scall(n) 


Appel systeme 


n est le numero de l'appel 


stop 


Arret de la machine 


fin du programme 



Figure 14.2: Le jeu d'instructions de la pico-machine 



simple et uniforme : le premier argument est un registre, le deuxieme argument est soit 
un registre soit une constante et le resultat est mis dans un registre. Les operations 
n'accedent jamais directement a la memoire. 

Les transferts de donnees entre registres et memoire de donnees sont assures par 
les instructions load et store. L'adresse du mot memoire accede est toujours de la 
forme r + o, ou r est le contenu d'un registre et o soit le contenu d'un registre, soit 
une constante. En d'autres termes, le pico-processeur n'a que deux modes d'adressage : 
indexe avec deplacement constant et indexe avec deplacement calcule. 

Les instructions de branchement sont au nombre de trois. On a d'une part deux 
branchements conditionnels, braz et branz, qui testent si un registre est nul ou non 
nul et sautent, le cas echeant, a une adresse donnee. On dispose aussi d'un branchement 
inconditionnel, jmp, a une adresse constante ou calculee (contenue dans un registre). 
De plus, jmp ecrit l'adresse de l'instruction qui le suit dans un registre. Ceci permet de 
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faire facilement des appels de sous-programmes (voir ci-dessous). 

Enfin, nous avons ajoute deux instructions speciales qui n'ont pas toujours 
d'equivalent dans les processeurs reels, mais qui sont tres utiles dans le cadre d'un 
simulateur: stop, qui arrete Pexecution du programme, et scall (pour system call, 
appel systeme), qui represente l'appel a un (hypothetique) systeme d'exploitation, en 
particulier pour faire des entrees-sorties. Nous utiliserons deux appels systeme : l'un 
qui affiche a l'ecran le nombre contenu dans le registre r 1, l'autre qui lit un nombrc 
au clavier et le place dans r 1. 

Idiomes de programmation 

Le lecteur habitue aux architectures CISC (complex instruction set computer, pro- 
cesseur a jeu d'instructions complexe), comme par exemple le Pentium d'Intel, a sans 
doute ete surpris par la pauvrete du jeu d'instructions du pico-processeur. En partic- 
ulier, il semble manquer un certain nombre d'instructions indispensables : P affectation 
(instruction move), certaines comparaisons (on a «inferieur», mais pas «superieur»), 
l'appel de sous-programme, le retour de sous-programme, la gestion de la pile, . . . Nous 
allons voir que toutes ces fonctionnalites s'expriment facilement en une ou deux instruc- 
tions de la pico-machine. 

Zero comme argument Beaucoup d'operations utiles s'obtiennent en fixant a zero 
un des deux arguments d'une instruction, en prenant soit la constante 0, soit le registre 
r 0 comme argument. Voici quelques exemples : 



Le registre zero comme resultat Parfois, le resultat d'une operation est inutile. 
La maniere standard de s'en debarrasser sans modifier aucun registre est de mettre r 0 
comme registre de destination. Par exemple, jmp a, r 0 se branche a l'adresse a, sans 
mettre l'adresse de retour dans aucun registre. 

Negation booleenne et inversion de tests En supposant les valeurs de verite 
representees par 0 pour «faux» et autre chose que 0 pour «vrai», l'instruction 
seq ri,r 0,7*2 calcule la negation d'une valeur de verite: si r\ est «faux» (nul), 7*2 est 
mis a «vrai» ; si n est «vrai» (non nul), r2 est mis a «faux». Exemple d'application : 
le test «strictement plus grand » entre un registre 7*1 et un registre ou une constante 
o, avec resultat dans 7*2, se calcule par les deux instructions 



La premiere instruction calcule la negation du resultat desire (la negation de r\ > o est 
r\ < o) ; la deuxieme calcule la negation de cette negation, obtenant le resultat desire. 



add ri, 0, 7*2 
add r 0, n, r2 
sub r 0, ri,r2 
braz r 0,a 
load n, 0,7*2 
load r 0,a, 7*2 




Met la constante n dans 7*2 (instruction move) 

Met l'oppose de 7*1 dans 7*2 (instruction neg) 

Saute a l'adresse a 

Lit le mot a l'adresse (calculee) 7*1 

Lit le mot a l'adresse (constante) a 



sle 7*1,0, 7*2 
seq 7*2, r 0,r 2 
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Sous-programmes L'instruction jmp sert a la fois pour appeler un sous-programme 
et pour revenir d'un sous-programme dans le programme principal. L'idee est de passer 
au sous-programme son adresse de retour dans un registre particulier. Par convention, 
nous utiliserons toujours le registre r 31 pour passer l'adresse de retour et les registres 
r 1, r 2, . . . pour passer les arguments et les resultats entre un sous-programme 
et le programme qui l'appelle. (Ce n'est qu'une convention, dans le but de rendre 
les programmes plus lisibles ; rien dans l'architecture de la pico-machine n'impose ce 
choix de registres.) Avec cette convention, voici comment s'ecrit la fonction «moyenne 
arithmetique » : 

Instruction 100 add r 1 , r 2 , r 1 
104 div r 1, 2, r 1 
108 jmp r 31, r 0 

Et voici un programme d'essai qui appelle cette fonction : 

Instruction 0 scall 0 (lecture d'un nombre au clavier) 
4 add r 1, 0, r 2 

8 scall 0 (lecture d'un nombre au clavier) 
12 jmp 100, r 31 

16 scall 1 (ecriture d'un nombre a l'ecran) 
20 stop 

L'appel systeme scall 0 lit un nombre au clavier et le place dans r 1. Les instruc- 
tions 0, 4 et 8 lisent done deux nombres et les placent dans les registres r 2 et r 
1. L'instruction 12 se branche a l'instruction 100 (le debut du sous-programme), apres 
avoir place l'adresse de l'instruction 16 dans le registre r 31. On execute alors le code de 
la fonction « moyenne arithmetique » : les instructions 100 et 104 calculent la moyenne 
de r 1 et de r 2 et placent le resultat dans r 1, conformement aux conventions d'appel 
des fonctions ; l'instruction 108 se branche a l'adresse contenue dans r 31, e'est-a-dire 
a l'instruction 16. On continue done l'execution du programme principal : affichage du 
registre r 1 (le resultat) par l'appel systeme scall 1 et arret du programme. 



Gestion d'une pile Les conventions d'appel introduites ci-dessus posent probleme 
lorsqu'un sous-programme doit en appeler un autre, ou se rappeler lui-meme : si un 
sous-programme / appelle un sous-programme g avec les conventions standard, / va 
mettre dans r 31 une adresse de retour pour g, detruisant ainsi le contenu courant de r 
31, qui est l'adresse de retour pour /. La solution est bien sur de sauvegarder l'adresse 
de retour pour / sur une pile. 

La pico-machine ne fournit pas d'instructions push et pop pour gerer une pile ; mais 
ces deux operations se programment facilement. On convient d'utiliser le registre r 30 
comme pointeur de pile. La pile commence tout en haut de la memoire et croit vers le 
bas. Le registre r 30 pointe vers le dernier mot empile. Avec ces conventions, empiler 
un registre, disons r 31, se traduit par 

sub r 30, 4, r 30 
store r 30, 0, r 31 

L'instruction sub alloue de la place pour le registre a empiler ; l'instruction store stocke 
sa valeur a P emplacement alloue. Reciproquement, depiler r 31 se traduit par 



260 



Simulation d'un processeur 



load r 30, 0, r 31 
add r 30, 4, r 30 

L 'instruction load recharge la valeur du registre ; l'instruction add recupere la place 
qui lui etait allouee sur la pile. 

Comme exemple d'utilisation de la pile, voici un sous-programme qui calcule la 
fonction factorielle de la maniere recursive classique. 



Adr. 


Instruction 


Commentaire 


100 


branz r 1, 112 


si l'argument n n'est pas nul, aller en 112 


104 


add r 0, 1, r 1 


mettre la constante 1 dans r 1 


108 


jmp r 31, r 0 


retour a l'appelant 


112 


sub r 30, 8, r 30 


reserver deux mots dans la pile 


116 


store r 30, 4, r 31 


empiler r 31 (l'adresse de retour) 


120 


store r 30, 0, r 1 


et empiler r 1 (n) 


124 


sub r 1, 1, r 1 


appel recursif sur n — \ 


128 


jump 100, r 31 


au retour, r 1 contient (n — 1)! 


132 


load r 30, 0, r 2 


depile n (mis dans r 2) 


136 


load r 30, 4, r 31 


depile l'adresse de retour 


140 


add r 30, 8, r 30 


recupere la place en pile 


144 


mult r 1, r 2, r 1 


calcule n x (n — 1)! dans r 1 


148 


jmp r 31, r 0 


retour a l'appelant 



14.2 Le simulateur 

Nous passons maintenant a l'implementation en Caml d'un simulateur de la pico- 
machine. Cette implementation se compose de deux programmes : l'un, le simulateur 
proprement dit, prend une representation binaire du code a executer et l'execute ; 
l'autre, appele Passembleur, produit la representation binaire executable a partir 
d'un texte de programme ecrit dans le langage de la pico-machine. Nous etudierons 
Passembleur dans la section 14.3 ; pour l'instant, voyons le simulateur. 

Description du pico-processeur 

On commence par un module code qui definit le jeu d'instructions de la machine 
sous forme d'un type concret Caml, ainsi que certaines caracteristiques de la machine. 

Fichier code.mli 

type registre == int ; ; 

type operande = 

I Reg of registre 
I Imm of int ; ; 

type instruction = 

I Op of operation * registre * operande * registre 
I Jmp of operande * registre 
I Braz of registre * int 
I Branz of registre * int 
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I Scall of int 
I Stop 

and operation = 

I Load I Store I Add I Mult I Sub I Div 
I And I Or I Xor I Shi I Shr 
I Sit I Sle I Seq; ; 

value nombre_de_registres : int 
and sp : int 
and ra: int 

and taille_du_mot : int;; 



Les instructions sont decrites par un ensemble de types somme et une abreviation de 
type (type registre == int). Une abreviation de type n'a pas de contenu semantique : 
le type figurant a gauche du symbole == peut etre partout remplace par le type qui 
figure a droite. Dans notre cas, le type registre peut etre partout remplace par int. 
On utilise des abreviations de type dans le but de rendre le code plus clair. 

La simplicite du jeu d'instructions de la machine se reflete dans la simplicite du type 
operation: il n'y a que 14 operations de base. Dans les instructions, ces operations 
sont regroupees dans le constructeur Op, puisque leurs arguments ont exactement la 
meme forme (un registre source, un operande source, un registre destination). II y a 
cinq formats d'instructions puisque Braz et Branz ont les memes arguments. 

L'implementation du module code fixe le nombre de registres a 32 et donne des 
noms aux registres 30 (sp, pour stack pointer, pointeur de pile) et 31 (ra, pour return 
address, adresse de retour). 

Fichier code .ml 

let nombre_de_registres = 32 
and sp = 30 
and ra = 31 

and taille_du_mot = 4; ; 



L'etat du pico-processeur 

Le module simul implemente le simulateur du pico-processeur : il fournit la fonction 
execute qui execute tout un programme, c'est-a-dire un tableau d'instructions, en 
initialisant d'abord la memoire a une taille donnee. 

Fichier simul .ml i 

#open "code" ; ; 

exception Erreur of string * int;; 

value lire_memoire : int -> int;; 

value ecrire_memoire : int -> int -> unit;; 

value lire_registre : int -> int;; 

value ecrire_registre : int -> int -> unit;; 

value tableau_des_appels_systeme : (int -> int) vect;; 
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value execute: instruction vect -> int -> unit;; 



L'implementation de simul commence par une description Caml de l'etat courant 
de la pico-machine. Cet etat se compose de l'etat des registres, de la memoire de code, 
de la memoire de donnees, et enfin de la valeur courante du pointeur de programme (pc, 
pour program counter), qui contient l'adresse de la prochaine instruction a executer. 
Cet etat est done decrit par un type enregistrement a champs mutables, contenant 
un tableau pour les registres, le pointeur de code, un tableau pour les instructions a 
executer et un tableau pour la memoire des donnees. 

Fichier simul .ml 

#open "code" ; ; 

type etat_du_processeur = 
{ registres: int vect; 
mutable pc : int; 
mutable code: instruction vect; 
mutable memoire: int vect };; 

let pico = 

{ registres = make_vect nombre_de_registres 0; 
pc = 0; 
code = [ I I ] ; 
memoire = [| |] }; ; 



La pico-machine est creee par la definition de la variable pico. Ses zones code 
et memoire des donnees sont provisoirement initialisees vides (elles ne seront allouees 
qu'au lancement de la machine, en fonction de la taille du programme a executer et de 
la taille des donnees a traiter) . 

Execution d'une instruction 

Le simulateur fait evoluer l'etat du processeur, contenu dans la variable pico, 
en simulant l'execution des instructions. Pour cela, le simulateur appelle la fonction 
cycle_d , horloge qui execute une instruction et fait evoluer l'etat de la machine en 
consequence. L'execution d'un programme consiste a repeter cycle_d'horloge jusqu'a 
ce qu'on rencontre une instruction stop. 

La fonction cycle_d'horloge devra lire et ecrire la memoire et les registres. 
Nous definissons tout d'abord une batterie de fonctions auxiliaires qui verifient que 
les operations demandees par le programme sont legales et accedent a des ressources 
reelles de la machine. 

Fichier simul .ml 

let lire_registre reg = 

if reg < 0 I I reg >= nombre_de_registres then 
raise (Erreur ("registre illegal", reg)); 

pico . registres . (reg) ; ; 

let ecrire_registre reg valeur = 

if reg < 0 I I reg >= nombre_de_registres then 
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raise (Erreur ("registre illegal", reg)); 
if reg <> 0 then pico . registres . (reg) <- valeur; ; 

let lire_instruction adresse = 

let adr = adresse / taille_du_mot in 

if adr < 0 I I adr >= vect_length pico. code then 

raise (Erreur ("sortie de la zone code", adr)); 
if adresse mod taille_du_mot <> 0 then 

raise (Erreur ("pc non aligne", adresse)); 
pico . code . (adr) ; ; 

let lire_memoire adresse = 

let adr = adresse / taille_du_mot in 

if adr < 0 I I adr >= vect_length pico.memoire then 

raise (Erreur ("lecture en dehors de la memoire", adresse)); 
if adresse mod taille_du_mot <> 0 then 

raise (Erreur ("lecture non alignee", adresse)); 
pico.memoire. (adr) ; ; 

let ecrire_memoire adresse valeur = 

let adr = adresse / taille_du_mot in 

if adr < 0 I I adr >= vect_length pico.memoire then 

raise (Erreur ("ecriture en dehors de la memoire", adresse)); 
if adresse mod taille_du_mot <> 0 then 

raise (Erreur ("ecriture non alignee", adresse)); 
pico .memoire . (adr) <- valeur;; 

let valeur_operande = function 
I Reg r -> lire_registre r 
I Imm n -> n; ; 

Dans le cas des ctCCCS Si la memoire, il faut tenir compte du fait que 1' adresse d'un 
mot est toujours multiple de 4 ; il faut done la diviser par 4 pour obtenir l'indice qui 
lui correspond dans le tableau pico.memoire. 

Fichicr simul .ml 

let tableau_des_appels_systeme = 

make_vect 10 ((function x -> x) : int -> int) ; ; 

let execute_appel_systeme appel argument = 

if appel < 0 I I appel >= vect_length tableau_des_appels_systeme 
then raise (Erreur ("mauvais appel systeme", appel)) 
else tableau_des_appels_systeme . (appel) argument;; 

La fonction cycle_d'horloge execute une instruction a la fois : elle decode 
et execute l'instruction actuellement pointee par le compteur ordinal (PC), puis 
incremente ce compteur pour passer a l'instruction suivante. Dans cette fonction, les 
operations de la machine sont simulees a l'aide de fonctions Caml: +, -, *, et ainsi de 
suite pour les operations arithmetiques et logiques ; lire_memoire et ecrire_memoire 
pour Load et Store. L'arret du processeur, lorsqu'on rencontre l'instruction Stop, est 
modelise par un declenchement d'exception (l'exception Arret). 
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Fichier simul .ml 

exception Arret;; 

let cycle_d'horloge () = 

let instruction = lire_instruction pico.pc in 
pico.pc <- pico.pc + taille_du_mot ; 
match instruction with 

I Dp(operation, regl, operande, reg2) -> 
let argl = lire_registre regl 
and arg2 = valeur_operande operande in 
begin match operation with 

I Load -> ecrire_registre reg2 (lire_memoire (argl + arg2)) 
I Store -> ecrire_memoire (argl + arg2) (lire_registre reg2) 
I Add -> ecrire_registre reg2 (argl + arg2) 
I Mult -> ecrire_registre reg2 (argl * arg2) 
I Sub -> ecrire_registre reg2 (argl - arg2) 
I Div -> if arg2 = 0 

then raise (Erreur ("division par zero", pico.pc-1)) 
else ecrire_registre reg2 (argl / arg2) 
I And -> ecrire_registre reg2 (argl land arg2) 
I Or -> ecrire_registre reg2 (argl lor arg2) 
I Xor -> ecrire_registre reg2 (argl lxor arg2) 
I Shi -> ecrire_registre reg2 (argl lsl arg2) 
I Shr -> ecrire_registre reg2 (argl asr arg2) 
I Sit -> ecrire_registre reg2 (if argl < arg2 then 1 else 0) 
I Sle -> ecrire_registre reg2 (if argl <= arg2 then 1 else 0) 
I Seq -> ecrire_registre reg2 (if argl = arg2 then 1 else 0) 
end 

Jmp (operande, reg) -> 

ecrire_registre reg pico.pc; 
pico.pc <- valeur_operande operande 
Braz(reg, adresse) -> 

if lire_registre reg = 0 then pico.pc <- adresse 
Branz(reg, adresse) -> 

if lire_registre reg <> 0 then pico.pc <- adresse 
Scall(appel_systeme) -> 
ecrire_registre 1 

(execute_appel_systeme appel_systeme (lire_registre 1)) 
Stop -> raise Arret;; 



Execution d'un programme complet 

L'execution d'un programme complet (fonction execute) consiste a charger la 
memoire avec le programme, a allouer la memoire des donnees, a initialiser le pointeur 
de pile et le compteur ordinal, puis a lancer une boucle sans fin de cycles d'horloge, qui 
ne s'arrete qu'a la rencontre de l'exception Arret. Enfin, puisque nous avons choisi par 
convention que le pointeur de pile serait le registre 30 et que la pile croitrait vers le bas 
de la memoire, le registre sp est initialise a la plus grande adresse memoire possible 
(plus un) au demarrage de la machine. 
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Fichier simul .ml 

let execute programme taille_memoire_en_octets = 

let taille_memoire_en_mots = (taille_memoire_en_octets +3) / 4 in 

pico.code <- programme; 

pico. memoire <- make_vect taille_memoire_en_mots 0; 
pico . registres . (0) <- 0; 

pico . registres . (sp) <- taille_memoire_en_mots * taille_du_mot ; 
pico.pc <- 0; 

try while true do cycle_d'horloge () done 
with Arret -> () ; ; 



Les appels systeme 

II nous reste a mettre en place un « pico-systeme (Sexploitation », a savoir les ap- 
pels systeme pour la lecture et Pecriture d'un nombre. Nous definissons done les deux 
fonctions correspondantes et les rangeons dans le tableau des appels systeme. 

Fichier simul .ml 

let appel_systeme_read _ = 
try read_int () 

with Failure _ -> raise (Erreur ("erreur de lecture", 1)) 

and appel_systeme_write argument = 

print_int argument; print_newline (); argument;; 

tableau_des_appels_systeme . (0) <- appel_systeme_read; 
tableau_des_appels_systeme . (1) <- appel_systeme_write ; ; 



Dans un vrai processeur les appels systeme sont bien sur ecrits en assembleur et 
accedent directement aux ressources materielles de la machine. Par exemple, la primi- 
tive d'impression irait (plus ou moins directement) ecrire dans la memoire d'ecran de 
la machine chacun des chiffres du nombre, tandis que la routine de lecture d'un nombre 
interrogerait le clavier et transformerait les codes des touches frappees en un nombre 
entier a l'aide d'une boucle similaire a celles utilisees dans nos analyseurs syntaxiques. 
Pour simplifier, e'est Caml qui nous permet cet acces direct aux ressources de la ma- 
chine, ce qui nous evite de decrire la connexion du processeur avec ses peripheriques. 

Le programme principal 

Pour lancer la machine sur un fichier de code prealablement assemble, on se contente 
de lire ce code en memoire, puis de lancer la fonction execute. Pour simplifier la 
lecture du code machine, nous allons utiliser les fonctions d'entree-sortie structured que 
fournit le systeme Caml Light. La fonction predefinie output _ value, qui a pour type 
out_channel -> 'a -> unit, ecrit une representation de son argument (une valeur 
Caml quelconque) sous forme d'une suite d'octets sur le canal specifie. La fonction 
input_value effectue l'operation inverse : elle lit une suite d'octets sur un canal et 
renvoie la structure Caml correspondante. (Ces deux fonctions nous ont deja servi pour 
sauvegarder des arbres de Huffman a la section 13.3.) 
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Le point d'entree de la commande analyse les arguments fournis par l'utilisateur 
pour detecter la presence d'un entier fixant la taille memoire a utiliser ; sinon on lance 
la machine avec une taille de IK mots. On surveille aussi les exceptions qui pourraient 
se produire pour afficher un message et rendre un code d'erreur adequat. 

Fichier exec .ml 

#open "code" ; ; 
#open "simul" ; ; 

exception Fichier_incorrect ; ; 

let execute_f ichier nom_f ichier taille_memoire = 
let canal = open_in_bin nom_f ichier in 
let programme = 

try (input_value canal : instruction vect) 
with Failure _ -> raise Fichier_incorrect in 
close_in canal; 

execute programme taille_memoire ; ; 

exception Mauvais_arguments ; ; 

if sys interactive then () else 

try 

if vect_length sys command_line < 2 then raise Mauvais_arguments ; 

let taille_memoire = 

if vect_length sys command_line < 3 

then 1024 

else try int_of _string sys command_line . (2) 

with Failure _ -> raise Mauvais_arguments in 

execute_f ichier sys command_line . (1) 

(taille_du_mot * taille_memoire) ; 

exit 0 

with Mauvais_arguments -> 

prerr_endline "Usage: pico_run <fichier> [taille memoire]"; 
exit 2 
I Fichier_incorrect -> 

prerr_endline "Le fichier ne contient pas du code executable"; 
exit 2 

I Erreur (message , param) -> 

prerr_string "Erreur a l'execution: "; 
prerr_string message; 

prerr_string " ("; prerr_int param; prerr_endline ")"; 
exit 2 

I sys Sys_error message -> 

prerr_string "Erreur du systeme : "; prerr_endline message; 
exit 2 ; ; 



Le programme pico_run s'obtient par une serie d'appels au compilateur 
independant, suivie d'un appel a l'editeur de liens de Caml Light qui produit la 
commande elle-meme. 
$ camlc -c code.mli 
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$ camlc -c code. ml 
$ camlc -c simul.mli 
$ camlc -c simul.ml 
$ camlc -c exec. ml 

$ camlc -o pico_run code.zo simul.zo exec.zo 



14.3 L'assembleur 

Nous passons maintenant au programme qui se charge de transformer un texte ecrit 
dans le langage du processeur en une suite d'instructions directement comprehensibles 
par le processeur. Ce programme est traditionnellement appele l'assembleur. II produit 
une suite d'instructions directement executables, qu'il ecrit dans un fichier de resultat. 
Ce fichier est ensuite lu et charge en memoire programme a la demande de l'utilisateur, 
par un programme special qui lance l'execution. En general ce « lanceur » est le systeme 
d'exploitation de l'ordinateur ; dans notre cas, c'est le programme pico_run de la sec- 
tion precedente. 

Le langage de l'assembleur 

Le langage d' entree de l'assembleur s'appelle en termes precis le langage 
d' assemblage et par abus l'assembleur. Le mot « assembleur » a done deux sens 
en informatique : il designe tantot un langage, tantot un programme de traduction. 
Pour eviter toute confusion, nous emploierons « langage d'assemblage » pour le langage 
d'instructions symboliques et « assembleur » pour le programme. 

Le principal travail de l'assembleur est de lire une representation textuelle des in- 
structions de la machine et de la transformer en code executable. Dans un processeur 
reel, le code executable est une suite d'octets ou de mots qui encodent les instructions 
et leurs operandes sous forme binaire. Pour la pico-machine, la phase de transformation 
du programme source en suite de nombres sera remplacee par la traduction en syntaxe 
abstraite des instructions de la pico-machine. Par exemple on ecrira store sp, 1 , r 1 
dans le langage d'assemblage et l'assembleur de la pico-machine produira l'instruction 
Op (Store, 30, Imm 1, 1) . Comme pour un processeur reel, l'assembleur effectue un 
codage des operations ; au contraire d'un processeur reel, le code n'est pas sous forme 
binaire. II aurait ete possible de coder reellement en nombres entiers, au prix d'inutiles 
complications. 

Un autre service que rend l'assembleur est de liberer le programmeur de la gestion 
des numeros d'instructions. On ecrit les instructions a la suite et l'assembleur les range 
automatiquement par numeros croissants. Bien plus, il fournit la possibility de reperer 
des instructions par des noms ; ce sont les etiquettes symboliques, qui font reference 
a des adresses d'instructions, sans que le programmeur ait a calculer l'adresse ab- 
solue de l'instruction correspondante dans la zone code. Ce remplacement automatique 
d'adresses symboliques par des adresses absolues s'appelle la resolution des etiquettes. 

Le langage d'assemblage, tel qu'il est defini par l'assembleur, est done plus riche et 
plus expressif que le langage execute par la machine, puisqu'il comporte ces etiquettes 
symboliques. L'assembleur fournit egalement un certain nombre d'abreviations ; par 
exemple, sp est un nom de registre legal de l'assembleur, qu'il transforme automatique- 
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ment en une reference au registre numero 30. II s'agit la encore de noms symboliques, 
automatiquement geres par l'assembleur. Enfin, il enrichit et rend plus uniforme le jeu 
d'instructions de la machine, en ajoutant des pseudo-instructions qui se presentent ex- 
actement comme des instructions de la machine mais sont en fait expansees en une ou 
plusieurs «vraies» instructions. Par exemple, notre assembleur sait coder les compara- 
isons « superieur » et « superieur ou egal » (instructions sgt et sge) , qui sont initialement 
absentes du jeu d'instructions. 

Voici par exemple un fichier d'assembleur de la pico-machine, ecrit a la main et qui 
programme la fonction factorielle. 

Fichier f act . asm 

# Le programme principal 

read # lecture de 1' argument (dans r 1) 

jmp fact, ra # calcul de la factorielle 

write # ecriture du resultat (r 1) 

stop 

# La fonction factorielle (N) 



# L' argument N 


est dans r 


1. 


Le resultat est mis dans r 1 . 


fact: braz 


r 1, fact_ 


0 


# N = 0 ? 


sub 


sp, 8, sp 




# reserve deux places dans la pile 


store 


sp, 0, ra 




# sauvegarde de l'adresse de retour 


store 


sp, 4, r 1 




# et de la valeur de N 


sub 


r 1, 1, r 


1 




jmp 


fact, ra 




# appel recursif sur N-l 


load 


sp, 4, r 2 




# recuperation de la valeur de N 


mult 


r 1, r 2, 


r 


1 # calcul de N * fact (N-l) 


load 


sp, 0, ra 




# recuperation de l'adresse de retour 


add 


sp, 8, sp 




# et de la place en pile 


jmp 


ra, r 0 




# retour a 1' appelant 


fact_0: add 


r 0, 1, r 


1 


# mettre 1 dans rl 


jmp 


ra, r 0 




# retour a 1' appelant 



On a ecrit simplement jmp fact, ra en utilisant Petiquette symbolique definie par 
fact: au lieu de jmp 16, r 31 qui ferait reference au numero absolu de l'instruction 
braz r 1, fact_0 et au numero du registre dedie a l'adresse de retour. 

En observant le code assembleur de la fonction factorielle, on mesure la dimculte 
qu'il y a a ecrire un programme en assembleur plutot qu'en Caml. On comprend aussi 
bien mieux la difference entre style imperatif et style fonctionnel : l'assembleur est par 
essence imperatif, car on ne travaille que par modification de registres. Vous constatez 
aussi qu'on doit tout gerer soi-meme, «a la main», par exemple la recursivite dans 
le cas de fact. En revanche, en assembleur toutes les ressources de la machine sont 
disponibles: on peut tout faire; malheureusement, la contrepartie est qu'il faut tout 
faire soi-meme. 

Stockage du code et gestion des etiquettes 
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Fichicr stockage .mli 

#open "code" ; ; 

exception Erreur of string; ; 

value initialise: unit -> unit 

and assemble: instruction -> unit 

and poser_etiquette : string -> unit 

and valeur_etiquette : string -> int 

and extraire_code : unit -> instruction vect;; 



Pour resoudre les etiquettes, l'assembleur est oblige de fonctionner en deux etapes : 
dans la premiere etape il «pose» les etiquettes quand il les rencontre, c'est-a-dire qu'il 
note leur adresse absolue dans une table d'association. Lorsqu'il rencontre a nouveau 
1' etiquette il la remplace par sa valeur. Malheureusement, cette phase ne suffit pas, car 
le programmeur peut faire reference a des etiquettes «en avant», c'est-a-dire encore 
inconnues car pas encore rencontrees. C'est le cas de l'instruction jmp fact, r 31, qui 
est assemblee alors que l'etiquette fact sera lue trois instructions plus loin. Dans ce cas, 
Passembleur laisse l'adresse de l'etiquette a zero et note que l'instruction assemblee est a 
completer lorsque l'etiquette sera connue. C'est le role de la seconde phase d'assemblage 
que de repasser sur ces instructions incompletes et de les modifier avec les adresses 
desormais determinees. La fonction resoudre_etiquette se charge de ce travail (appele 
backpatching en anglais). 

Pour obtenir l'adresse absolue des etiquettes, l'assembleur gere un compteur ordi- 
nal virtuel, qu'il incremente a chaque nouvelle instruction assemblee. II engrange ses 
resultats dans un tableau d'instructions assemblies. Ces quantites font partie de l'etat 
de l'assembleur, avec la table des etiquettes et la liste des etiquettes a resoudre. La 
table des etiquettes est une table de hachage comme celles decrite a la section 12.8. 

Fichicr stockage .ml 

#open "code" ; ; 

type etat_de_l ' assembleur = 
{ mutable pc: int; 

mutable code: instruction vect; 

table_etiq: (string, int) hashtbl t; 

mutable a_resoudre: (int * string) list };; 

let asm = 

{ pc = 0; code = [| |]; table_etiq = hashtbl new 17; 

a_resoudre = [] }; ; 

let initialise () = 
asm.pc <- 0; 

asm. code <- make_vect 100 Stop; 

hashtbl clear asm.table_etiq; 

asm. a_resoudre <- [] ; ; 

let decode_adresse adr = adr / taille_du_mot ; ; 
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let assemble instruction = 

if asm.pc >= vect_length asm. code then begin 

let nouveau_code = make_vect (2 * vect_length asm. code) Stop in 
blit_vect asm. code 0 nouveau_code 0 (vect_length asm. code); 
asm. code <- nouveau_code 

end; 

asm. code . (decode_adresse asm.pc) <- instruction; 
asm.pc <- asm.pc + taille_du_mot ; ; 

let def inir_etiquette nom_etiq val_etiq = 
try 

hashtbl find asm.table_etiq nom_etiq; 

raise (Erreur ("etiquette " " nom_etiq ~ " redefinie")) 
with Not_found -> 

hashtbl add asm.table_etiq nom_etiq val_etiq; ; 

let poser_etiquette nom_etiq = 

def inir_etiquette nom_etiq asm.pc;; 

let valeur_etiquette nom_etiq = 
try 

hashtbl find asm. table_etiq nom_etiq 

with Not_found -> 

asm. a_resoudre <- (asm.pc, nom_etiq) :: asm.a_resoudre; 
0;; 



La fonction assemble surveille le compteur ordinal virtuel : s'il deborde de la 
memoire programme virtuelle alors on remplace le tableau initial par un nouveau 
tableau deux fois plus long, dans lequel on recopie les instructions deja assemblies, 
et Ton continue normalement. (La recopie est effectuee par la fonction predefmie 
blit_vect, qui est l'analogue pour les tableaux de la fonction blit_string pour les 
chaines.) II s'agit la d'une extension de la taille de la memoire virtuelle de l'assembleur : 
lorsque le code est completement assemble, l'assembleur pourra determiner exactement 
la taille du programme, qui sera celle qu'on attribuera a Pexecution. En effet, dans 
le pico-processeur (comme dans le monde reel), la memoire programme est fixee 
une fois pour toutes au lancement. II n'est pas possible de changer la taille de la 
zone programme pendant que la pico-machine est en marche. D'ailleurs pourquoi en 
aurait-on besoin, puisqu'il s'agit alors d'executer un certain programme fixe. 

Nous detaillons maintenant le code de la fonction qui resout les etiquettes en mod- 
ifiant les instructions ou elles sont apparues alors qu'on ne connaissait pas encore leur 
valeur. Les etiquettes qui reperent une instruction dans la memoire programme peu- 
vent apparaitre dans les instructions de branchement, done comme argument des in- 
structions Jmp, Braz ou Branz. Ce sont les trois derniers cas du filtrage qui definit 
la variable nouvelle_instruction, qui a evidemment pour valeur l'instruction provi- 
soirement ecrite par l'assembleur, mais avec la valeur maintenant connue de l'etiquette. 
Les etiquettes peuvent aussi apparaitre dans des operations, comme deuxieme argu- 
ment constant : en effet, il est parfois necessaire de lire ou d'ecrire en memoire des 
donnces l'adresse d'une instruction (par exemple pour ecrire directement l'adresse de 
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retour d'une fonction sur la pile). 

Fichicr stockage.ml 

let resoudre_etiquette (adresse, nom_etiq) = 
let valeur = 
try 

hashtbl find asm.table_etiq nom_etiq 

with Not_found -> 

raise (Erreur ("etiquette " " nom_etiq " " indefinie")) in 
let nouvelle_instruction = 

match asm. code . (decode_adresse adresse) with 
I Op(operation, regl, _, reg2) -> 

Op(operation, regl, Imm valeur, reg2) 
I Jmp(_, reg) -> 

Jmpdmm valeur, reg) 
I Braz(reg, _) -> 

Braz(reg, valeur) 
I Branz(reg, _) -> 

Branz(reg, valeur) 
I _ -> raise (Erreur "resoudre_etiquette") in 
asm. code . (decode_adresse adresse) <- nouvelle_instruction; ; 

let extraire_code () = 

do_list resoudre_etiquette asm. a_resoudre ; 
sub_vect asm. code 0 (decode_adresse asm.pc);; 



Finalement, la fonction extraire_code appelle resoudre_etiquette sur la liste 
des etiquettes non resolues, puis renvoie le tableau des instructions assemblies. (La 
fonction sub_vect est l'analogue pour les tableaux de la fonction sub_string des 
chaines de caracteres : elle extrait un sous-tableau d'une certaine longueur a partir 
d'un certain indice.) 

La lecture et l'assemblage des programmes 

Le module lecture fournit l'unique fonction programme, qui lit un programme de 
la pico-machine depuis un flux de caracteres, l'assemble, puis fait resoudre les etiquettes 
par la fonction extraire_code qui renvoie le tableau d'instructions correspondant. 

Fichicr lecture .mli 

#open "code" ; ; 

value programme: char stream -> instruction vect;; 



La lecture n'est pas tres complexe a comprendre, si ce n'est qu'on ne construit pas 
d'arbre de syntaxe abstraite : rien ne nous y oblige ici, puisque nous n'analyserons pas 
les programmes assembles. On se contente done d'assembler les instructions «au vol», 
des leur lecture, en laissant evidemment non resolues les references en avant. C'est la 
phase d'extraction du code qui se chargera ensuite de cette resolution. 

Pour P analyse lexicale, nous reutilisons le generateur d'analyseurs lexicaux lexuniv 
introduit au chapitre 12, convenablement parametre par la liste des mots-cles du langage 
d' assemblage. 
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Fichicr lecture .ml 

#open "code" ; ; 
#open "stockage";; 
#open "lexuniv";; 

let registre = function 

I [< 'MC "r"; 'Entier nbr >] -> nbr 
I [< 'MC "sp" >] -> sp 
I [< 'MC "ra" >] -> ra; ; 

let constante = function 
I [< 'Entier nbr >] -> nbr 

I [< 'Ident nom_etiq >] -> valeur_etiquette nom_etiq; ; 

let operande = function 

I [< registre r >] -> Reg r 
I [< constante c >] -> Imm c;; 

let rec instruction = function 

I [< operation op; reg_op_reg (rl, o, r2) >] -> 

assemble (Op (op, rl, o, r2)) 
I [< test_inverse test; reg_op_reg (rl, o, r2) >] -> 

assemble (Op (test , rl, o, r2)); 

assemble (Op (Seq, r2, Reg 0, r2)) 
I [< 'MC "jmp"; operande o; 'MC ","; registre r >] -> 

assemble (Jmp(o, r)) 
I [< 'MC "braz"; registre r; 'MC ","; constante c >] -> 

assemble (Braz(r, c)) 
I [< 'MC "branz"; registre r; 'MC ","; constante c >] -> 

assemble (Branz(r, c)) 
I [< 'MC "scall"; 'Entier n >] -> assemble (Scall n) 
I [< 'MC "write" >] -> assemble (Scall 1) 
I [< 'MC "read" >] -> assemble (Scall 0) 
I [< 'MC "stop" >] -> assemble Stop 

and reg_op_reg = function 

I [< registre rl; ' MC " , " ; operande o; 'MC ","; registre r2 >] -> 
(rl, o, r2) 

and operation = function 



[< 


'MC 


"load 


1 >] 


-> 


Load 


1 [< 


'MC 


"store" >] 


-> 


Store 


[< 


'MC 


"add" 


>] 


-> 


Add 


1 [< 


'MC 


"mult" >] 


-> 


Mult 


[< 


'MC 


"sub" 


>] 


-> 


Sub 


1 [< 


'MC 


"div" >] 


-> 


Div 


[< 


'MC 


"and" 


>] 


-> 


And 


1 [< 


'MC 


"or" >] 


-> 


Or 


[< 


'MC 


"xor" 


>] 


-> 


Xor 


1 [< 


'MC 


"shl" >] 


-> 


Shl 


[< 


'MC 


"shr" 


>] 


-> 


Shr 


1 [< 


'MC 


"sit" >] 


-> 


Sit 


[< 


'MC 


"sle" 


>] 


-> 


Sle 


1 [< 


'MC 


"seq" >] 


-> 


Seq 



and test_inverse = function 
I [< 'MC "sgt" >] -> Sle 
I [< 'MC "sge" >] -> Sit 
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I [< >MC "sne" >] -> Seq;; 

let def inition_d' etiquette = function 

I [< 'Ident nom_etiq; 'MC ":" >] -> poser_etiquette nom_etiq; ; 

let rec instruction_etiq = function 

I [< def inition_d' etiquette () ; instruction_etiq () >] -> () 
I [< instruction () >] -> ();; 

let rec suite_d' instructions flux = 
match flux with 

I [< instruction_etiq () >] -> suite_d' instructions flux 
I [< >] -> ();; 

let analyseur_lexical = 
construire_analyseur 

["r"; "sp"; "ra" ; "load"; "store"; "add"; "mult"; "sub"; "div"; 
"and"; "or"; "xor"; "shl"; "shr"; "sgt"; "sge"; "sne"; 
"sit"; "sle"; "seq"; "jmp"; "braz"; "branz"; 
"scall"; "write"; "read"; "stop"; ","; ":"];; 

let programme flux = 
initialise () ; 

suite_d' instructions (analyseur_lexical flux); 
extraire_code () ; ; 



L'assemblage d'un fichier complet 

L'asscmblage d'un fichier consiste simplement a le lire en memoire, a l'assembler en 
resolvant les etiquettes, puis a ecrire le tableau des instructions sur le fichier de sortie 
specifie. La seule difficulte consiste a gerer les cas d'erreur. 

Fichier asm. ml 

let assemble_f ichier nom_entree nom_sortie = 

let entree = open_in nom_entree in 

let sortie = open_out_bin nom_sortie in 
try 

output_value sortie 

(lecture programme (stream_of _channel entree)); 

close_in entree; 
close_out sortie; 
0 

with exc -> 

close_in entree; 
close_out sortie; 

sys remove nom_sortie; 

match exc with 

I Parse_error I Parse_f ailure -> 
prerr_string 

"Erreur de syntaxe aux alentours du caractere numero " ; 
prerr_int (pos_in entree) ; 
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prerr_endline " " ; 
1 

I stockage Erreur message -> 

prerr_string "Erreur d'assemblage: "; 

prerr_endline message; 

1 

I _ -> 

raise exc; ; 



La fonction principale se contente d'analyser ses arguments, puis si tout va bien, elle 
appelle la fonction assemble_f ichier precedente. 

Fichicr asm. ml 

exception Mauvais_arguments ; ; 

if sys interactive then () else 

try 

if vect_length sys command_line <> 3 then raise Mauvais_arguments ; 

exit (assemble_f ichier sys command_line . (1) sys command_line . (2) ) 

with Mauvais_arguments -> 
prerr_endline 

"Usage: pico_asm <f ichier assembleur> <f ichier de code>"; 
exit 2 

I sys Sys_error message -> 

prerr_string "Erreur du systeme: "; prerr_endline message; 
exit 2 ; ; 



Comme pour la commande pico_run on compile, puis assemble les modules de 
Passembleur, pour produire la commande pico_asm: 

$ camlc -c stockage. mli 
$ camlc -c stockage. ml 
$ camlc -c lexuniv.mli 
$ camlc -c lexuniv.ml 
$ camlc -c lecture. mli 
$ camlc -c lecture. ml 
$ camlc -c asm. ml 

$ camlc -o pico_asm code.zo stockage. zo lexuniv.zo lecture. zo asm.zo 

Exemple 

Nous executons la fonction factorielle a l'aide de la pico-machine. II nous faut as- 
sembler le fichier fact. asm avec la commande pico_asm, puis charger les instructions 
en memoire programme et lancer la pico-machine avec la commande pico_run : 

$ pico_asm fact. asm fact.o 

$ pico_run fact.o 

10 

3628800 

Si Ton a compile et charge les modules depuis le systeme interactif, le meme resultat 

s'obtient par les commandes asm assemble_f ichier "fact. asm" "fact.o" et 

exec execute_f ichier "fact.o" 4096. 
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Adresse Instruction Assemblcur source 



# Le programme principal 



0 


Scall 0 


read 




4 


Jmp (Imm 16, 31) 


J m P 


fact, ra 


8 


Scall 1 


write 




12 


Stop 


stop 








# La fonction 


fact(N) 


16 


Braz (1, 60) 


fact: braz 


r 1, factO 


20 


Dp (Sub, 30, Imm 8, 30) 


sub 


sp, 8, sp 


24 


Dp (Store, 30, Imm 0, 31) 


store 


sp, 0, ra 


28 


Dp (Store, 30, Imm 1, 1) 


store 


sp, 4, r 1 


32 


Dp (Sub, 1, Imm 1, 1) 


sub 


r 1, 1, r 1 


36 


Jmp (Imm 16, 31) 


jmp 


fact, ra 


40 


Dp (Load, 30, Imm 1, 2) 


load 


sp, 4, r 2 


44 


Dp (Mult, 1, Reg 2, 1) 


mult 


r 1, r 2, r 1 


48 


Dp (Load, 30, Imm 0, 31) 


load 


sp, 0, ra 


52 


Dp (Add, 30, Imm 8, 30) 


add 


sp, 2, sp 


56 


Jmp (Reg 31, 0) 


jmp 


ra, r 0 


60 


Dp (Add, 0, Imm 1, 1) 


factO : add 


r 0, 1, r 1 


64 


Jmp (Reg 31, 0) 


jmp 


ra, r 0 



Figure 14.3: Resultat de l'assemblage du fichier fact. asm 



A titre d'exemple, nous donnons figure 14.3 le code assemble par la commande 
pico_asm pour le fichier fact. asm (page 268), en faisant figurer, en regard de chaque 
instruction assemblee, le code source correspondant du fichier. On constate sur cet 
exemple que les etiquettes ont ete resolues correctement et que le registre sp est bien 
expanse en son numero absolu. 



14.4 Pour aller plus loin 

Le modele de pico-processeur que nous avons decrit n'est pas completement realiste : 
pour simplifier, nous n'avons pas rendu compte d'un certain nombre de traits des 
« vrais » processeurs, traits qui sont des consequences directes de l'architecture interne 
de ces processeurs. Par exemple, dans le processeur MIPS R3000 dont nous nous sommes 
inspires, certaines instructions prennent effet « a retardement » : un branchement, par 
exemple, n'est pas execute immediatement ; le processeur execute systematiquement 
l'instruction qui suit le branchement avant de se derouter effectivement a l'endroit in- 
dique. Le pico-processeur ne simule pas ce fait. De meme, nous n'avons pas essaye de 
simuler fidelement le temps d'execution des programmes : meme si, sur un processeur 
RISC, la plupart des instructions s'executent en un cycle d'horloge, certaines instruc- 
tions arithmetiques (multiplication et division) prennent generalement plus de temps ; 
pis, les acces a la memoire prennent des temps tres variables suivant qu'on tombe dans 
la memoire cache de niveau 1 (2 a 3 cycles, typiquement), celle de niveau 2 (10 a 30 
cycles), dans la memoire principale (40 a 100 cycles), ou dans la memoire virtuelle (des 
millions de cycles). Par consequent, le programme decrit dans ce chapitre est davantage 
un interpreteur d'un langage d'assemblage raisonnablement realiste qu'un simulateur 
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fidele d'un processeur reel. Simuler fidelement un processeur reel est un exercice de 
programmation interessant, quoique difficile. 

Bibliographie 

Pour une introduction progressive et tres complete aux architectures de processeurs, 
on lira avec profit Architecture des ordinateurs : approche quantitative, de Hennessy et 
Patterson (International Thompson Publishing). 
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Compilation de mini-Pascal 



Un mini-Pascal pour une pico-machine, mais un 
programme respectable quand mime. 

o 

l> <l ne fois maitrisees les techniques de l'analyse syntaxique et de la ma- 
1[ lu nipulation d'arbres de syntaxe abstraite, il est naturel de les appliquer a 
^ks^^ l'implementation en Caml de veritables langages de programmation. Dans ce 
chapitre, nous ecrivons un compilateur pour un petit langage imperatif dans le style 
de Pascal, mais tres simplifie. Le code produit par le compilateur est executable par 
le simulateur du chapitre 14. C'est l'occasion de montrer l'architecture generale d'un 
compilateur et d'introduire quelques algorithmes classiques de generation de code. 
Ce chapitre est egalement un bon exemple de structuration d'un programme assez 
complexe. 

15.1 Syntaxe abstraite, syntaxe concrete 

Le langage auquel nous allons nous interesser est un sous-ensemble de Pascal. Les 
seuls types de donnees sont les entiers, les booleens et les tableaux a indices entiers. 
Au niveau des instructions, certains types de boucles ont ete omis. On dispose de 
procedures et de fonctions, mais elles ne peuvent pas etre locales a une autre procedure 
ou fonction. Les parametres sont passes par valeur pour les entiers et les booleens et 
par reference pour les tableaux. Derniere difference majeure par rapport a Pascal : les 
procedures et les fonctions sont considerees comme mutuellement recursives ; on peut 
done appeler une procedure avant de l'avoir definie (comme en Modula-2). 

A titre d'exemple, voici deux programmes mini-Pascal qui calculent la fonction de 
Fibonacci, de maniere plus ou moins naive. 

Fichier f ibl .pas 

program fibonacci; 
var n: integer; 

function fib(n: integer): integer; 

begin if n < 2 then fib := 1 else fib := fib(n - 1) + fib(n - 2) end; 
begin 

read (n) ; wr ite (f ib (n) ) 
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end 



Fichier fib2.pas 

program fibonacci; 

var fib: array [0 .. 100] of integer; 
var n: integer; 
var i : integer ; 
begin 

read(n) ; 

fib[0] := 1; fib[l] := 1; i := 2; 
while i <= n do begin 

fib[i] := fib[i - 1] + fib[i - 2]; i := i + 1 
end; 

write (fib [n] ) 
end 



La syntaxe abstraite (c'est-a-dire la representation interne) des programmes ecrits 
dans ce langage est structured en plusieurs niveaux, correspondant chacun a un type 
concret Caml : 



Niveau 


Type Caml 


Exemple 


Constantes 

Expressions 

Instructions 

Expressions de type 

Declarations de procedures 

Declarations de fonctions 

Programmes 


constante 

expression 

instruction 

expr_type 

decl_proc 

decl_f one 

programme 


true 
x+1 

x:=x+l 

array [1 . . 10] of integer 
procedure p(x:int)... 
function f (x: int) : int. . . 
program prog; . . . 



Ces types concrets sont definis dans l'interface du module syntaxe. 

Fichier syntaxe .mli 

type constante = 

I Entiere of int 

I Booleenne of bool;; 

type expr_type = 

I Integer (* le type des entiers *) 

I Boolean (* le type des booleens *) 

I Array of int * int * expr_type;; (* le type des tableaux *) 

(* (les deux "int" sont les bornes) *) 

type expression = 

I Constante of constante 
I Variable of string 

I Application of string * expression list 

I 0p_unaire of string * expression 

I Op_binaire of string * expression * expression 

I Acces_tableau of expression * expression; ; 

type instruction = 

I Af f ectation_var of string * expression 
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I Af f ectation_tableau of expression * expression * expression 

I Appel of string * expression list (* appel de procedure *) 

I If of expression * instruction * instruction 

I While of expression * instruction 

I Write of expression 

I Read of string 

I Bloc of instruction list;; (* bloc begin ... end *) 

type decl_proc = 

{ proc_parametres : (string * expr_type) list; 
proc_variables : (string * expr_type) list; 
proc_corps: instruction } 
and decl_fonc = 

{ f onc_parametres : (string * expr_type) list; 
f onc_type_resultat : expr_type ; 
f onc_variables : (string * expr_type) list; 
fonc_corps: instruction };; 

type programme = 

{ prog_variables : (string * expr_type) list; 
prog_procedures : (string * decl_proc) list; 
prog_f onctions : (string * decl_fonc) list; 
prog_corps: instruction };; 

value lire_programme : char stream -> programme;; 



L'implementation du module syntaxe est entierement consacree a l'analyseur syntax- 
ique (la fonction lire_programme declaree ci-dessus). Nous reutilisons l'analyseur lex- 
ical «universel» lexuniv introduit au chapitre 12 pour la lecture des propositions et 
utilise egalement au chapitre 14 pour l'assembleur de la pico-machine. 

Fichier syntaxe .ml 

#open "lexuniv";; 

let analyseur_lexical = construire_analyseur 

["false"; "true" ;"("; ","; ")"; "["; "]"; "not"; "*"; "/"; "-"; "+"; 
"="; "<>"; "<"; ">"; "<="; ">="; "and"; "or"; "if"; "then"; "else"; 
"while"; "do"; "write"; "read"; "begin"; ";"; "end"; ":="; 
"integer"; "boolean"; "array"; "of"; ".."; "var"; ":"; 
"procedure"; "function"; "program"];; 



L'analyseur lexical s'obtient par application partielle de la fonction construire_ 
analyseur a la liste des mots-cles. Viennent ensuite deux puissantes fonctionnelles 
d'analyse syntaxique, l'une pour analyser des listes, l'autre pour analyser des applica- 
tions d'operateurs infixes. Voici la fonctionnelle d'analyse des listes. 

Fichier syntaxe .ml 

let lire_liste lire_element separateur = 
let rec lire_reste = function 
I [< (stream_check 

(function lexeme -> lexeme = MC separateur)) sep; 
lire_element elt; 
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lire_reste reste >] -> elt : : reste 
I [< >] -> [] in 

function [< lire_element elt; lire_reste reste >] -> elt : : reste 
I [< >] -> □ ; ; 

La fonctionnelle lire_liste prend en argument un analyseur lire_element et une 
chaine separateur et renvoie un analyseur qui reconnait les listes d'elements reconnus 
par lire_elements, separes par des occurrences de la chaine separateur. Par exemple, 
lire_liste (function [< 'Entier n >] -> n) "," 

est une fonction de type lexeme stream -> int list qui reconnait les listes d'entiers 
separes par des virgules. En appliquant cette fonction au flux [< 'Entier 1; 'MC 
'Entier 2 >] , on obtient la liste [1;2]. 
La fonction stream_check employee dans lire_reste permet de filtrer les car- 
acteres qui verifient une certaine condition. De maniere generale, un motif de la forme 
[< (stream_check p) c; ... >] est selectionne si la fonction p appliquee au premier 
element du flux renvoie true. Le premier element du flux est alors lie a la variable c et 
le filtrage continue comme d'habitude. Dans le cas de lire_reste, le motif 
[< (stream_check (function lexeme -> lexeme = MC separateur)) sep >] 

filtre done les mots-cles dont le texte est identique a la chaine separateur. 

L'autre fonctionnelle sert a analyser les applications d'operateurs binaires infixes, 
comme + ou and. 

Fichier syntaxe .ml 

let est_un_operateur operateurs = function 

I MC op -> mem op operateurs 

I _ -> false; ; 

let lire_operateur operateurs = function 

I [< (stream_check (est_un_operateur operateurs)) (MC op) >] -> op;; 

let lire_operation lire_base operateurs = 
let rec lire_reste el = function 
I [< (lire_operateur operateurs) op; 
lire_base e2; 

(lire_reste (Op_binaire(op, el, e2))) e >] -> e 
I [< >] -> el in 
function [< lire_base el; (lire_reste el) e >] -> e;; 

La fonction lire_operateur prend en argument une liste d'operateurs represented 
par des chaines de caracteres, comme [" + ";"-"], et rend un analyseur reconnaissant 
les flux qui commencent par un de ces operateurs. 

La fonctionnelle lire_operation prend en arguments un analyseur pour les expres- 
sions simples et une liste d'operateurs et reconnait les applications de ces operateurs a 
des expressions simples. Par exemple, 

lire_operation (function [< 'Entier n >] -> Constante(Entiere n) ) 
["+" ; "-"] 

renvoie un analyseur de type lexeme stream -> expression reconnaissant des ex- 
pressions comme 1+2-3. En appliquant cet analyseur au flux 
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[< 'Entier 1; 'MC "+"; 'Entier 2; 'MC 'Entier 3 >] 

on obtient l'expression 
Op_binaire("-" , 

Op_binaire("+" , Constante (Entiere 1), Constante (Entiere 2)), 
Constante (Entiere 3)) 

Pour construire l'arbre de syntaxe, on considere que les operateurs sont associatifs a 
gauche; autrement dit, 1+2-3 est lue comme (l+2)-3 et non pas comme l+(2-3). 

Le reste de l'analyseur syntaxique est plus simple a comprendre. Pour les expres- 
sions, nous introduisons un certain nombre d'analyseurs intermediaries, arm de re- 
specter les priorites usuelles entre operateurs : * est plus prioritaire que +, and est plus 
prioritaire que or, etc. 

Fichier syntaxe .ml 

let rec lire_exprO flux = 
match flux with 

I [< 'Entier n >] -> Constante (Entiere n) 
I [< 'MC "false" >] -> Constante (Booleenne false) 
I [< 'MC "true" >] -> Constante (Booleenne true) 
I [< 'Ident nom >] -> 

begin match flux with 

I [< 'MC "("; (lire_liste lire_expr ",") el; 'MC ")">] -> 

Application(nom, el) 
| [< >] -> Variable nom 
end 

I [< 'MC "("; lire_expr e; 'MC ")" >] -> e 

and lire_exprl flux = 
match flux with 

[< lire_exprO el >] -> 
match flux with 

I [< 'MC "["; lire_expr e2; 'MC "] " >] -> Acces_tableau(el , e2) 
I [< >] -> el 

and lire_expr2 = function 

I [< 'MC lire_exprl e >] -> Op_unaire("-" , e) 

I [< 'MC "not"; lire_exprl e >] -> Dp_unaire("not" , e) 
I [< lire_exprl e >] -> e 

and lire_expr3 flux = 

lire_operation lire_expr2 
and lire_expr4 flux = 

lire_operation lire_expr3 
and lire_expr5 flux = 

lire_operation lire_expr4 
and lire_expr6 flux = 

lire_operation lire_expr5 
and lire_expr flux = 

lire_operation lire_expr6 



["*"; "/"] fi ux 
["+"; "-"] flux 

|-„ = m. ..on. "<m. ,.>!,. n <= „. „ >= „] flux 

["and"] flux 
["or"] flux;; 



Viennent ensuite des analyseurs pour les instructions, les types, les declarations 
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de variables, les declarations de fonctions, les declarations de procedures et enfin les 
programmes. 

Fichier syntaxe .ml 

let rec lire_instr flux = 
match flux with 

I [< 'MC "if"; lire_expr el; 'MC "then"; lire_instr i2 >] -> 
begin match flux with 

I [< 'MC "else"; lire_instr i3 >] -> If (el, i2, i3) 

I [< >] -> If (el, i2, Bloc []) 

end 

I [< 'MC "while"; lire_expr el; 'MC "do"; lire_instr i2 >] -> 
While (el, i2) 

I [< 'MC "write"; 'MC "("; lire_expr e; 'MC ")" >] -> 
Write e 

I [< 'MC "read"; 'MC "("; 'Ident nom; 'MC ")" >] -> 
Read nom 

I [< 'MC "begin"; (lire_liste lire_instr ";") il; 'MC "end" >] -> 

Bloc il 
I [< lire_expr e >] -> 

match e with 

I Application (nom, el) -> 

AppeKnom, el) 
I Variable nom -> 

begin match flux with 

I [< 'MC ":="; lire_expr e >] -> 
Af f ectation_var (nom, e) 

end 

I Acces_tableau(el , e2) -> 
begin match flux with 
I [< 'MC ":="; lire_expr e3 >] -> 
Af f ectation_tableau(el , e2, e3) 

end 

I _ -> raise Parse_error; ; 

let rec lire_type = function 

I [< 'MC "integer" >] -> Integer 
I [< 'MC "boolean" >] -> Boolean 

I [< 'MC "array"; 'MC "["; 'Entierbas; 'MC ".."; 'Entierhaut; 

'MC "]"; 'MC "of"; lire_type ty >] -> Array(bas, haut , ty) ; ; 

let rec lire_variables = function 

I [< 'MC "var"; 'Ident nom; 'MC ":"; lire_type ty; 'MC ";"; 

lire_variables reste >] -> (nom,ty) : :reste 
I [< >] -> [] ; ; 

let lire_un_parametre = function 

I [< 'Ident nom; 'MC ":"; lire_type ty >] -> (nom.ty) ; ; 

let lire_parametres = function 
I [< 'MC "("; 

(lire_liste lire_un_parametre ",") parametres; 
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'MC ")" >] -> parametres;; 

let lire_procedure = function 

I [< 'MC "procedure"; 'Ident nom; lire_parametres p; 'MC 
lire_variables v; lire_instr i; 'MC ";" >] -> 
(nom, {proc_parametres=p; proc_variables=v; proc_corps=i}) ; ; 

let lire_f onction = function 

I [< 'MC "function"; 'Ident nom; lire_parametres p; 'MC ":"; 
lire_type ty; 'MC ";"; lire_variables v; 
lire_instr i; 'MC ";" >] -> 

(nom, {f onc_parametres=p; f onc_type_resultat=ty ; 
f onc_variables=v; f onc_corps=i>) ; ; 

let rec lire_proc_f one = function 

I [< lire_procedure proc; lire_proc_f one (procs, foncs) >] -> 

(proc: :procs, foncs) 
I [< lire_f onction fonc; lire_proc_f one (procs, foncs) >] -> 

(procs, fonc: :f ones) 
I [<>]->(□,[]); ; 

let lire_prog = function 

I [< 'MC "program"; 'Ident nom_du_programme ; 'MC ";"; 

lire_variables v; lire_proc_f one (p,f); lire_instr i >] -> 
{ prog_variables=v; prog_procedures=p; 
prog_f onctions=f ; prog_corps=i };; 

let lire_programme flux = lire_prog (analyseur_lexical flux) ; ; 



15.2 Typage 

Nous programmons maintenant un verificateur de types pour les programmes mini- 
Pascal. Le but premier du verificateur de types est de garantir l'absence d'incoherences 
entre les types des objets manipules par le programme; par exemple, l'addition d'un 
entier et d'un tableau doit etre rejetee. Un but secondaire est de detecter certaines 
operations comme l'affectation entre tableaux ou le renvoi d'un tableau comme resultat 
d'une fonction, operations que nous avons decide d'interdire pour faciliter la compilation 
du langage. 

De maniere generale, les erreurs de types peuvent etre detectees ou bien au moment 
de l'execution (typage dynamique), ou bien avant l'execution, par une analyse prealable 
du programme (typage statique). Le typage statique offre plusieurs avantages par rap- 
port au typage dynamique. Tout d'abord, il detecte les erreurs de types dans toutes 
les branches du programme, meme celles qui ne sont pas toujours executees. De plus, 
dans le cadre d'un compilateur, le typage statique nous autorise a produire du code ne 
contenant aucun test sur le type des objets, puisqu'il garantit que les objets manipules 
pendant l'execution seront forcement du bon type pour les operations effectuees dessus. 
Au contraire, pour faire du typage dynamique, il faudrait produire du code pour verifier 
les types a l'execution, ce qui complique la compilation et ralentit l'execution. 



284 



Compilation de mini-Pascal 



Voici l'interface du module typage fournissant la fonction de verification des types. 

Fichicr typage .mli 

#open "syntaxe" ; ; 

type erreur_de_type = 

I Indefini of string (* variable utilisee mais non definie *) 

I Conflit of string * expr_type * expr_type (* conflit de types *) 
I Arite of string * int * int (* mauvais nombre d' arguments *) 

I Tableau_attendu (* [. .] applique a un non-tableau *) 

I Tableau_interdit of string; ; (* tableau renvoye en resultat *) 

exception Erreur_typage of erreur_de_type ; ; 

value type_programme : programme -> unit 

and af f iche_erreur : erreur_de_type -> unit 

and type_op_unaire : string -> expr_type * expr_type 

and type_op_binaire : string -> expr_type * expr_type * expr_type;; 

La fonction type_programme signale les erreurs de typage en declenchant alors 
l'exception Erreur_typage avec pour argument une description de l'erreur. L'erreur 
peut ensuite etre imprimee par la fonction af f iche_erreur. 

Environnements de typage 

Pour typer une expression ou une instruction, il est necessaire de connaitre les types 
des variables, des fonctions et des procedures mentionnees dans cette expression ou cette 
instruction. L'environnement de typage est une structure de donnees qui associe aux 
noms de variables leur type courant, c'est-a-dire le type de la declaration la plus recente 
de chaque variable. II associe egalement aux noms de procedures et de fonctions leurs 
declarations (noms des parametres, corps de la procedure, etc.). 

Le module envir fournit le type abstrait env des environnements et les operations de 
base sur ce type. Pour pouvoir reutiliser le module envir, nous allons parametrer le type 
env par le type des informations associees aux variables. Le type fourni par le module 
envir est done 'a env, ou 'a est le type des informations associees aux variables. Dans 
le verificateur, nous associons des expressions de types aux variables, et utilisons done 
des environnements de type expr_type env. Dans le compilateur (section 15.3), ce sont 
des informations de compilation que nous associerons aux variables. 

Fichicr envir .mli 

#open "syntaxe" ; ; 
type ' a env ; ; 

value environnement_initial : 

(string * decl_proc) list -> (string * decl_fonc) list -> 'a env 

and ajoute_variable : string -> 'a -> 'a env -> 'a env 

and cherche_variable : string -> 'a env -> 'a 

and cherche_f onction: string -> 'a env -> decl_fonc 

and cherche_procedure : string -> 'a env -> decl_proc;; 
exception Pas_trouve of string; ; 



En voici une implementation simple, a base de listes d'associations. 
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Fichicr envir.ml 

#open "syntaxe";; 
#open "interp" ; ; 
type 'a env = 

{ vars: (string * 'a) list; 

procs: (string * decl_proc) list; 

foncs: (string * decl_fonc) list };; 

let environnement_initial p f = 
{ vars=[]; procs=p; foncs=f };; 

let ajoute_variable nom info env = 

{ vars=(nom, info) : :env. vars; procs=env. procs; foncs=env . foncs };; 

let cherche nom liste = 

try assoc nom liste with Not_found -> raise (Pas_trouve nom);; 

let cherche_variable nom env = cherche nom env. vars 
and cherche_f onction nom env = cherche nom env. foncs 
and cherche_procedure nom env = cherche nom env. procs;; 



Typage des expressions 

L'implementation du module typage commence par trois fonctions elementaires de 
verification sur les types. 

Fichicr typage . ml 

#open "syntaxe" ; ; 
#open "envir" ; ; 

let verif ie_type message type_attendu type_reel = 
if type_attendu <> type_reel then 

raise (Erreur_typage(Conf lit (message, type_attendu, type_reel))) ; ; 

let verif ie_tableau = function 

I Array(inf, sup, elements) -> elements 

I _ -> raise (Erreur_typage (Tableau_attendu) ) ; ; 

let verif ie_non_tableau message = function 
I Array(inf, sup, elements) -> 

raise (Erreur_typage (Tableau_interdit message) ) 

!_->();; 



Passons ensuite a la fonction type_expr, qui calcule le type d'une expression, 
ou declenche l'exception Erreur_typage si l'expression est mal typee. Cette fonction 
prend en argument un environnement qui fait correspondre aux variables leur type, aux 
procedures et aux fonctions leur declaration. 

Fichicr typage . ml 

let rec type_expr env = function 
I Constante(Entiere n) -> Integer 
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I Constante(Booleenne b) -> Boolean 
I Variable nom_var -> 

cherche_variable nom_var env 
I Application (nom_f one, args) -> 

let fonc = cherche_f onction nom_fonc env in 

type_application env nom_fonc f one . f onc_parametres args; 

fonc . f onc_type_resultat 
I Op_unaire(op, arg) -> 

let (type_arg, type_res) = type_op_unaire op in 

verifie_type (" 1 ' argument de " ~ op) 

type_arg (type_expr env arg) ; 

type_res 
I Dp_binaire(op, argl, arg2) -> 

let (type_argl, type_arg2, type_res) = type_op_binaire op in 
verifie_type ("le premier argument de " ~ op) 

type_argl (type_expr env argl) ; 
verifie_type ("le deuxieme argument de " " op) 

type_arg2 (type_expr env arg2) ; 

type_res 

I Acces_tableau(exprl , expr2) -> 

let type_elements = verif ie_tableau (type_expr env exprl) in 
verifie_type "l'indice de tableau" 

Integer (type_expr env expr2) ; 

type_elements 

and type_application env nom parametres arguments = 
let nbr_parametres = list_length parametres 
and nbr_arguments = list_length arguments in 
if nbr_parametres <> nbr_arguments then 

raise (Erreur_typage(Arite (nom, nbr_parametres , nbr_arguments) ) ) ; 
let type_parametre (nom_param, type_param) argument = 

verifie_type ("le parametre " " nom_param ~ " de " ~ nom) 
type_param (type_expr env argument) in 
do_list2 type_parametre parametres arguments 

and type_op_unaire = function 
I "-" -> (Integer, Integer) 
I "not" -> (Boolean, Boolean) 

and type_op_binaire = function 

I "*" I "/" I "+" I "-" -> (Integer, Integer, Integer) 

I "=" I "<>" I "<" I ">" I "<=" I ">=" -> (Integer, Integer, Boolean) 

I "and" I "or" -> (Boolean, Boolean, Boolean) ; ; 



Typage des instructions 

L'etape suivante consiste a typer les instructions. Au contraire de type_expr, la 
fonction type_instr ne renvoie rien : il n'y a pas de type a calculer, seulement des 
types a verifier. 
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Fichicr typage . ml 

let rec type_instr env = function 
I Af f ectation_var (nom_var , expr) -> 

let type_var = cherche_variable nom_var env in 

verif ie_non_tableau ("affectation de " " nom_var) type_var; 

verif ie_type ("la variable " " nom_var) 

type_var (type_expr env expr) 
I Af f ectation_tableau(exprl , expr2, expr3) -> 

let type_elements = verif ie_tableau (type_expr env exprl) in 
verif ie_non_tableau "affectation de tableau" type_elements ; 
verif ie_type "l'indice de tableau" 

Integer (type_expr env expr2) ; 
verifie_type "affectation de tableau" 

type_elements (type_expr env expr3) 
I Appel(nom_proc, args) -> 

let proc = cherche_procedure nom_proc env in 
type_application env nom_proc proc .proc_parametres args 
I If (condition, branche_oui, branche_non) -> 
verifie_type "la condition de IF" 

Boolean (type_expr env condition) ; 
type_instr env branche_oui; 
type_instr env branche_non 
I While (condition, corps) -> 

verif ie_type "la condition de WHILE" 

Boolean (type_expr env condition) ; 
type_instr env corps 
I Write expr -> 

verif ie_type "1' argument de WRITE" 

Integer (type_expr env expr) 

I Read nom_var -> 

verif ie_type "1' argument de READ" 

Integer (cherche_variable nom_var env) 

I Bloc liste -> 

do_list (type_instr env) liste;; 



Typage d'un programme 

Les fonctions de typage d'une declaration de fonction ou de procedure ajoutent 
dans l'environnement les types declares pour les parametres et les variables locales, puis 
verifient dans cet environnement le typage du corps de la fonction ou de la procedure. 

Fichicr typage . ml 

let ajoute_var (nom, typ) env = ajoute_variable nom typ env; ; 

let type_procedure env_global (nom, decl) = 
let env = 

list_it ajoute_var 

(decl .proc_variables @ decl .proc_parametres) 
env_global in 
type_instr env decl.proc_corps; ; 
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let type_f onction env_global (nom, decl) = 
verif ie_non_tableau 

("passage comme resultat de la f onction " " nom) 
decl . f onc_type_resultat ; 
let env = 

list_it ajoute_var 

((nom, decl.fonc_type_resultat) :: 

decl.fonc_variables 0 decl . f onc_parametres) 
env_global in 
type_instr env decl . f onc_corps ; ; 



Enfin, le typage d'un programme tout entier consiste a construire un environnement 
de typage global, correspondant aux declarations de variables globales, de fonctions et 
de procedures, puis a verifier les types dans les fonctions, les procedures et le corps du 
programme. 

Fichicr typage . ml 

let type_programme prog = 
let env_global = 

list_it ajoute_var prog.prog_variables 

(environnement_initial prog.prog_procedures 

prog.prog_f onctions) in 

try 

do_list (type_procedure env_global) prog.prog_procedures; 
do_list (type_f onction env_global) prog. prog_f onctions; 
type_instr env_global prog.prog_corps 
with Pas_trouve nom -> 

raise (Erreur_typage(Indef ini nom)) ; ; 



Traitement des erreurs de typage 

II reste a afficher les messages d'erreur. On utilise pour cela les fonctions de bib- 
liotheque prerr_int et prerr_string de preference a print_string et print_int, 
car les premieres affichent sur la sortie d'erreur standard et non sur la sortie standard 
comme les secondes. 

Fichicr typage . ml 

let rec affiche_type = function 

I Integer -> prerr_string "integer" 
I Boolean -> prerr_string "boolean" 
I Array (inf, sup, ty) -> 

prerr_string "array ["; prerr_int inf; prerr_string ".."; 
prerr_int sup; prerr_string "] of "; affiche_type ty;; 

let af f iche_erreur = function 
I Indefini nom -> 

prerr_string "Nom inconnu: "; prerr_string nom; 

prerr_endline " . " 
I Conf lit (message , type_attendu, type_reel) -> 

prerr_string "Conflit de types: "; prerr_string message; 

prerr_string " devrait avoir le type " ; 
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affiche_type type_attendu; 

prerr_string " mais a le type "; affiche_type type_reel; 

prerr_endline " . " 
I Arite(nom, nbr_parametres , nbr_arguments) -> 

prerr_string "Mauvais nombre d' arguments : "; prerr_string nom; 

prerr_string " attend "; prerr_int nbr_parametres ; 

prerr_string " parametre (s) , mais est appelee avec "; 

prerr_int nbr_arguments ; prerr_endline " argument (s) . " 
I Tableau_attendu -> 

prerr_endline "Acces dans un objet qui n'est pas un tableau." 
I Tableau_interdit message -> 

prerr_string "Operation interdite sur les tableaux: "; 

prerr_string message; prerr_endline 



Les textes des messages d'erreur sont assez descriptifs. II leur manque neanmoins 
une information fort utile : le numero de la ligne oil l'erreur s'est produite. Cette in- 
formation ne figure pas dans l'arbre de syntaxe abstraite. Pour produire de meilleurs 
messages d'erreur, une premiere possibility est de faire le typage en meme temps que 
l'analyse syntaxique, auquel cas on irait simplement consulter une variable globale con- 
tenant le numero de la ligne en cours d'analyse, variable tenue a jour par l'analyseur 
lexical. Cette solution est simple, mais complique la structure du compilateur. Une 
autre solution, plus generale, est de travailler sur un arbre de syntaxe abstraite annote 
par les numeros de lignes correspondants dans le texte source. Par exemple, pour an- 
noter chaque instruction, il faudrait declarer le type instruction du module syntaxe 
comme suit : 

type instruction = 

{ description: descr_instruction; 
ligne : int } 
and descr_instruction = 

I Af f ectation_var of string * expression 

I If of expression * instruction * instruction 

Chaque noeud du type instruction dans l'arbre de syntaxe abstraite est ainsi annote 
par un entier : le numero de ligne. Nous n'avons pas utilise cette technique dans ce 
chapitre, car elle alourdit desagreablement toutes les fonctions qui operent sur l'arbre 
de syntaxe abstraite. C'est cependant une technique tres generale, qui peut servir pour 
bien d'autres types d'annotations en plus des numeros de lignes : types des expressions, 
informations de compilation, informations de mise au point (debugging). 

15.3 Compilation 

Cette section presente un compilateur pour le langage mini-Pascal, produisant du 
code pour le pico-processeur decrit dans le chapitre 14. Le compilateur se presente 
sous la forme d'un module compil, dont l'interface est fort simple (au contraire de 
Pimplementation . . . ). 
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Fichier compil .mli 

value compile_programme : syntaxe programme -> unit ; ; 

La fonction compile_programme edrit directement sur la sortie standard le code assem- 
bleur pour le programme donne en argument. 



Representation des donnees 

Commengons par definir comment les types de donnees mini-Pascal sont representes 
en machine. Les entiers (type integer) sont directement representes par les entiers de 
la machine. Pour les booledns (type boolean), nous representons false par l'entier 0 et 
true par l'entier 1. Un tableau (type array) est stocke dans un certain nombre de mots 
memoire contigus et represente par l'adresse memoire du premier element. Dans le cas 
d'un tableau de tableaux (c'est-a-dire un tableau multidimensionnel) , deux approches 
sont possibles : P allocation structured ou l'allocation a plat. Avec l'allocation structured, 
une valeur de type array [1..2] of array [1..2] of integer est representee par 
un tableau de deux pointeurs vers deux tableaux de deux entiers. Avec l'allocation a 
plat, une valeur du meme type est un bloc memoire de quatre mots, contenant les deux 
tableaux de deux entiers mis cote a cote. 

Allocation structured Allocation a plat 



t[l] [1] 



t[l] [2] 



t[2] [1] 



t [2] [2] 







t[l] [1] 




t[l] [2] 


t[2] [1] 


t [2] [2] 





Nous allons utiliser l'allocation a plat, qui est plus compacte et plus emcace a 
l'acces que l'allocation structured, bien qudlle complique legerement la compilation. 
En particulier, pour calculer le dedalage entre le debut d'un tableau et Pelement auquel 
on veut acceder, il faut connaitre a la compilation la taille des elements du tableau. 
Heureusement, cette taille se deduit facilement du type des elements du tableau, qui 
est une information connue a la compilation. La fonction taille_du_type ci-dessous 
calcule le nombre d'octets occupes par la representation d'un objet du type donne. 



#open "syntaxe" ; ; 
#open "envir" ; ; 
#open "printf " ; ; 

let taille_du_mot = 4; ; 



Fichier compil. ml 



(* un mot = quatre octets *) 



let rec taille_du_type = function 

I Integer I Boolean -> taille_du_mot 
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I Array(inf, sup, ty) -> (sup - inf + 1) * taille_du_type ty; ; 

La fonction val_const traduit une constante en l'entier qui la represente. 
Fichicr compil .ml 



let val_const = function 
I Entiere n -> n 

I Booleenne b -> if b then 1 else 0;; 



Environnements de compilation 

Les fonctions de compilation prennent en argument un environnement qui indique 
a quels emplacements memoire se trouvent les variables. On reutilise la structure 
generique d' environnement fournie par le module envir. Les donnees associees aux 
noms de variables sont du type inf o_variable defini ci-dessous. 

Fichicr compil .ml 

type inf o_variable = 

{ typ: expr_type; 

emplacement: emplacement_variable } 
and emplacement_variable = 

I Global_indirect of int 

I Global_direct of int 

I Local_indirect of int 

I Local_direct of int;; 



Le compilateur attribue une adresse absolue a chaque variable globale. Cette adresse 
est l'argument des constructeurs Global_direct et Global_indirect. La distinction 
entre ces deux constructeurs est la suivante : si la variable est un entier ou un booleen, 
l'entier associe est l'adresse d'un mot qui contient la valeur courante de x. En revanche, 
si la variable est un tableau, l'entier associe est l'adresse du premier mot du bloc 
memoire correspondant ; la variable s'evalue done en l'adresse elle-meme et non pas en 
le mot contenu a cette adresse. L'emplacement Global_indirect a correspond au pre- 
mier cas (une indirection a partir de a est necessaire) ; l'emplacement Global_direct 
a correspond au deuxieme cas (pas d'indirection a partir de a). 

var x: integer var x: array [1..3] of integer 



valeur de x 



valeur de x [1] 



valeur de x [2] 



valeur de x [3] 



valeur de x 



Les variables locales des fonctions et des procedures, ainsi que leurs parametres, 
sont stockees sur la pile. Chaque fonction ou procedure s'alloue, quand elle est appelee, 
un bloc dans la pile appele bloc d'activation (activation record ou stack frame, dans 
la litterature) . Le bloc d'activation contient les parametres, les variables locales et 
l'adresse de retour a l'appelant. Les blocs d'activation ont la structure suivante (la pile 
croit vers le bas) : 
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dernier parametre 








premier parametre 




adresse de retour 




variables locales 




temporaires 



pointeur de pile 

Les blocs d'activation s'empilent les uns derriere les autres au gre des appels de 
fonctions et de procedures. Par exemple, si g appelle f , voici l'etat de la pile pendant 
que f s'execute : 



pointeur de pile 



parametres de g 



adresse de retour 



variables locales de g 



temporaires de g 



parametres passes a f par g 



adresse de retour dans g 



variables locales de f 



temporaires de f 



L'entier argument des constructeurs Local_indirect et Local_direct represente 
la position relative de la variable locale dans le bloc d'activation. Le point de repere est 
l'adresse du mot contenant le premier parametre. Les positions positives correspondent 
aux variables locales ; les positions negatives, aux parametres. Comme pour les valeurs 
globales, Local_indirect signifie qu'il faut faire une indirection a cette adresse pour 
obtenir la valeur de la variable, alors que Local_direct signifie que cette adresse est 
la valeur de la variable. 



position relative de x 



parametres 



adresse de retour 



variable x 



! prof ondeur_pile 



pointeur de pile — *J ' 

L'acces aux variables locales se fait par adressage relatif au pointeur de pile (le 
registre numero 30, aussi appele sp). Le compilateur garde trace du decalage entre 
le pointeur de pile et le mot contenant l'adresse de retour dans le bloc d'activation 
courant, dans la variable prof ondeur_pile. Cette variable augmente lorsqu'on alloue 
de nouveaux temporaires et diminue quand on les libere. 

Fichicr compil .ml 

let prof ondeur_pile = ref 0;; 
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let reserve_pile n = 

printf "sub sp, 7,d, sp\n" (n * taille_du_mot) ; 

prof ondeur_pile := !prof ondeur_pile + n * taille_du_mot 

and libere_pile n = 

printf "add sp, 7.d, sp\n" (n * taille_du_mot) ; 

prof ondeur_pile := !prof ondeur_pile - n * taille_du_mot ; ; 

Les fonctions reserve_pile et libere_pile emettent du code machine qui modifie 
le registre pointeur de pile et modifient prof ondeur_pile pour que le code emis pour 
les acces aux variables relativement a ce registre reste correct. 

Le code est emis sur la sortie standard a l'aide de la fonction printf du module 
de bibliotheque printf. Tout comme la fonction sprintf que nous avons rencontree 
dans la section 11.2, printf prend en argument une chaine de format et un certain 
nombre d'entiers ou de chaines de caracteres, et remplace dans le format les sequences 
de la forme % plus une lettre par le prochain argument. Au contraire de sprintf, qui 
renvoie le resultat du formatage sous forme de chaine, printf l'affiche directement sur 
la sortie standard. Par exemple, 

printf "add r %d, 7.S, r 7„d" 1 "etiquette" 2 

affiche 

add r 1, etiquette, r 2 

La lettre suivant % indique le type de 1' argument a afficher et le format d'affichage a 
utiliser. Parmi les nombreux formats existants, nous n'en utiliserons que deux : °/„d, qui 
affiche un entier en decimal, et %s, qui affiche une chaine de caracteres. 

Fonctions d'analyse des expressions 

Nous passons maintenant a des fonctions auxiliaires qui calculent certaines pro- 
prietes des expressions. La premiere calcule le type d'une expression de tableau, c'est- 
a-dire les bornes inferieures et superieures du tableau, ainsi que le type des elements ; 
cette derniere information determine la taille des elements lors d'un acces au tableau. 

Fichicr compil .ml 

let rec type_de_tableau env = function 
I Variable nom -> 

begin match cherche_variable nom env with. 

{ typ = Array (inf, sup, ty) } -> (inf, sup, ty) 
end 

I Acces_tableau(argl , arg2) -> 

match type_de_tableau env argl with 

(_, _, Array (inf, sup, ty)) -> (inf, sup, ty) ; ; 

Comme les tableaux ne peuvent etre renvoyes comme resultat d'un appel de fonction, 
une expression bien typee de type Array ne peut etre qu'une variable ou un acces 
dans un tableau multidimensionnel ; ces deux cas sont done les seuls a considerer dans 
type_de_tableau. 

La deuxieme fonction auxiliaire determine si revaluation d'une expression peut 
«interferer» avec revaluation d'une autre. Deux expressions n'interferent pas si leurs 
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resultats et les effets qu'elles effectuent ne dependent pas de l'ordre dans lequel on les 
evalue. Une expression qui contient un appel de fonction est susceptible d'interferer avec 
une autre expression : la fonction peut ecrire quelque chose a l'ecran, ou modifier une 
variable globale. De meme, une expression qui fait intervenir la valeur d'une variable 
globale peut interferer avec une autre expression qui va modifier cette variable globale 
a l'occasion d'un appel de fonction. On se convainc facilement qu'une expression ne 
contenant ni variables globales, ni appels de fonctions n'interfere avec aucune autre 
expression. (Pour rester simple, on suppose ici que tout appel de fonction est susceptible 
de faire des effets. Pour faire les choses plus finement, il faudrait analyser aussi le corps 
de la fonction appelee, pour voir s'il peut faire des effets en s'executant.) 

Fichier compil .ml 

let rec sans_interf erences env = function 
I Constante c -> true 
I Variable nom -> 

let var = cherche_variable nom env in 

begin match var . emplacement with 

I Global_indirect _ I Global_direct _ -> false 

I Local_indirect _ I Local_direct _ -> true 

end 

I Application(f one , args) -> false 
I Op_unaire(op, arg) -> 

sans_interf erences env arg 
I Dp_binaire(op, argl, arg2) -> 

sans_interf erences env argl && sans_interf erences env arg2 
I Acces_tableau(argl , arg2) -> 

sans_interf erences env argl && sans_interf erences env arg2; ; 



La derniere fonction auxiliaire determine les «besoins en registres» d'une expres- 
sion : de combien de registres libres revaluation de l'expression a besoin pour stocker 
ses resultats intermediaires. Cette information est precieuse pour determiner quand il 
est necessaire de sauvegarder des resultats intermediaires sur la pile. 

La strategie que nous allons employer est la suivante : avant d'evaluer une expres- 
sion, on regarde si ses besoins en registres sont superieurs au nombre de registres inu- 
tilises (e'est-a-dire ne contenant pas deja un resultat intermediaire) ; si oui, on libere 
certains des registres utilises, en stockant leur valeur dans la pile avant revaluation de 
l'expression, puis en les rechargeant depuis la pile une fois l'expression evaluee. 

Fichier compil .ml 

let dernier_registre = 24; ; 

let rec besoins env = function 

I Constante c -> 0 

I Variable nom -> 0 

I Application(f one , args) -> dernier_registre 

I Dp_unaire(op, arg) -> besoins env arg 

I Dp_binaire(op, argl, arg2) -> besoins_op_binaire env argl arg2 

I Acces_tableau(argl , arg2) -> besoins_op_binaire env argl arg2 

and besoins_op_binaire env argl arg2 = 



Compilation 



295 



let bl = besoins env argl and b2 = besoins env arg2 in 
if bl < b2 

&& (sans_interf erences env argl I I sans_interf erences env arg2) 
then max b2 (bl + 1) 
else max bl (b2 + 1) ; ; 



L 'evaluation des expressions peut utiliser tous les registres dont les numeros sont 
compris entre 1 et dernier_registre pour stocker des resultats intermediaries. Les 
registres au-dessus de dernier_registre sont reserves pour d'autres usages (tempo- 
raires, pointeur de pile). 

La constante dernier_registre est le nombre de registres du processeur que nous 
pouvons utiliser pour revaluation des expressions. On suppose que l'application d'une 
fonction ne preserve aucun de ces registres : la fonction appelee peut les utiliser li- 
brement, pour evaluer des expressions arbitrairement compliquees, sans obligation de 
sauvegarder leur contenu. Une application de fonction a done besoin de tous les reg- 
istres. 

Pour une operation unaire comme not e, si on peut evaluer e avec n registres 
libres, on peut aussi evaluer not e avec n registres libres : il suffit d'evaluer e dans un 
certain registre r, puis de faire l'instruction seq r 0, r, r qui ne necessite pas de registre 
temporaire supplementaire. 

Le cas des operations binaires est plus subtil. Pour evaluer e\ + e2, par exemple, on 
peut commencer par evaluer e±, puis e2, puis faire add sur les deux resultats. Mais il 
faut que la valeur de e± ne soit pas detruite pendant revaluation de e<i- Pour ce faire, 
on a besoin d'un registre libre supplementaire pendant revaluation de e2, registre dans 
lequel on conservera la valeur de e\. Les besoins de l'expression e\ + 62 ainsi compilee 
sont done le plus grand de besoins e\ et de 1 + besoins 62- 

Si les expressions e± et e2 sont susceptibles d'interferer, nous sommes obliges, pour 
respecter la semantique de mini-Pascal, d'evaluer e\ d'abord, puis e2- En revanche, si 
l'une des expressions est garantie sans interferences, nous pouvons evaluer e2 avant ei 
sans changer le comportement du programme. Si on evalue d'abord e2 puis ei, le nombre 
de registres utilises est le plus grand de besoins e2 et de 1 + besoins e\. On choisit 
done celle des deux strategies qui utilise le moins de registres. On montre facilement 
que la strategie « e2 d'abord » utilise moins de registres que la strategic « e\ d'abord » 
si et seulement si besoins e2 est plus grand que besoins e±. La strategie correspond 
done a evaluer en premier celle des deux sous-expressions qui a les plus grands besoins 
en registres. (Cette methode est connue dans la litterature sous le nom d'algorithme 
d'Ershov.) 

Compilation d'une expression 

Nous pouvons maintenant attaquer la fonction de compilation d'une expression. 
Cette fonction prend en arguments un environnement, une expression et un registre de 
destination et affiche sur la sortie standard le code machine qui calcule la valeur de 
cette expression et met le resultat dans le registre demande. La plus grande partie de 
la fonction compile_expr se passe de commentaire. Nous utilisons toute la puissance 
du filtrage pour reconnaitre certains cas particuliers qui correspondent directement a 
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des modes d'adressage de la machine, comme par exemple l'addition d'une constante 
ou le chargement avec un decalage constant. 

Fichicr compil .ml 



t instr. 


_pour_op = 


function 






| "+" 


-> "add" 


1 " _ " 


-> 


"sub 


| "*" 


-> "mult" 


1 " / " 


-> 


"div 


| ii = n 


-> "seq" 


| "<>" 


-> 


"sne 


| "<" 


-> "sit" 


1 " > " 


-> 


"sgt 


| "<=" 


-> "sle" 




-> 


"sge 


I "and" 


-> "and" 


1 "or" 


-> 


"or" 



let rec compile_expr env expr reg = 
match expr with 
I Constante est -> 

printf "add r 0, 7»d, r 7 0 d\n" (val_const est) reg 
I Variable nom -> 

let var = cherche_variable nom env in 
begin match var . emplacement with 
I Global_indirect n -> 

printf "load r 0, 7 0 d, r %d # °/.s \n" n reg nom 
I Global_direct n -> 

printf "add r 0, %d, r %d # °/ 0 s \n" n reg nom 
I Local_indirect n -> 

printf "load sp, %d, r °/„d # 7.s \n" 

( ! prof ondeur_pile - n) reg nom 
I Local_direct n -> 

printf "add sp, 7.d, r %d # 7.s \n" 

( ! prof ondeur_pile - n) reg nom 

end 

I Application(f one , arguments) -> 

let nbr_args = list_length arguments in 
reserve_pile nbr_args; 
let position = ref 0 in 
do_list (function arg -> 

compile_expr env arg 1; 

printf "store sp, 7od, r l\n" Iposition; 

position := Iposition + taille_du_mot) 
arguments; 
printf "jmp F7 0 s, ra\n" fonc; 
libere_pile nbr_args; 

if reg <> 1 then printf "add r 1, r 0, r 7od\n" reg 
I Dp_unaire(op, arg) -> 

compile_expr env arg reg; 
begin match op with 

I "-" -> printf "sub r 0, r %d, r 7.d\n" reg reg 
I "not" -> printf "seq r 0, r %d, r 7.d\n" reg reg 
end 

I Dp_binaire(op, argl, Constante cst2) -> 
compile_expr env argl reg; 
printf "7.s r 7.d, 7.d, r 7.d\n" 

(instr_pour_op op) reg (val_const cst2) reg 
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I Op_binaire(("+" | »*" | " = " | "<>" | "and" I "or") as op, 
Constante cstl, arg2) -> 
compile_expr env arg2 reg; 
printf "7„s r 7„d, 7.d, r 7.d\n" 

(instr_pour_op op) reg (val_const cstl) reg 
I Op_binaire(op, argl, arg2) -> 

let (regl, reg2) = compile_arguments env argl arg2 reg in 
printf "7,s r °/ 0 d, r °/,d, r 7.d\n" (instr_pour_op op) regl reg2 reg 
I Acces_tableau(argl , Constante est) -> 

let (inf , sup, type_elements) = type_de_tableau env argl in 
compile_expr env argl reg; 
begin match type_elements with 
I Integer I Boolean -> 

printf "load r °/„d, 7.d, r 7.d\n" reg 

((val_const est - inf) * taille_du_mot) reg 
I Array (_, _, _) -> 

let taille = taille_du_type type_elements in 
printf "add r °/„d, 7.d, r °/„d\n" 

reg ((val_const est - inf) * taille) reg 

end 

I Acces_tableau(argl , arg2) -> 

let (inf, sup, type_elements) = type_de_tableau env argl in 
let (regl, reg2) = compile_arguments env argl arg2 reg in 
if inf <> 0 then printf "sub r %d, 7.d, r 7.d\n" reg2 inf reg2; 
begin match type_elements with 
I Integer I Boolean -> 

printf "mult r %d, 7,d, r 7od\n" reg2 taille_du_mot reg2; 

printf "load r 7od, r %d, r 7»d\n" regl reg2 reg 
I Array (_, _, typ) -> 

let taille = taille_du_type type_elements in 

printf "mult r 7.d, 7„d, r %d\n" reg2 taille reg2; 

printf "add r 7.d, r 7.d, r 7.d\n" regl reg2 reg 

end 

and compile_arguments env argl arg2 reg_libre = 

let bl = besoins env argl and b2 = besoins env arg2 in 
if bl < b2 

&& (sans_interf erences env argl I I sans_interf erences env arg2) 
then begin 

let (reg2, regl) = compile_arguments env arg2 argl reg_libre in 
(regl, reg2) 
end else begin 

compile_expr env argl reg_libre; 

if b2 < dernier_registre - reg_libre then begin 

compile_expr env arg2 (reg_libre + 1) ; 

(reg_libre, reg_libre + 1) 
end else begin 

reserve_pile 1; 

printf "store sp, 0, r 7«d\n" reg_libre; 
compile_expr env arg2 reg_libre; 
printf "load sp, 0, r 29\n" ; 
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libere_pile 1; 
(29, reg_libre) 
end 
end; ; 



La fonction compile_arguments implemente la strategic devaluation presentee plus 
haut. Elle evalue deux expressions en sequence et renvoie les numeros de deux registres 
contenant leur valeur. Le dernier argument, reg_libre, est le numero du premier reg- 
istre libre. Tous les registres inferieurs a reg_libre seront preserves ; tous les autres 
peuvent etre utilises librement. 

Si on peut permuter sans risques les deux evaluations et si cela peut reduire le 
nombre de registres utilises (c'est-a-dire si arg2 a de plus grands besoins que argl), la 
fonction compile_arguments se rappelle apres avoir permute arg2 et argl. 

Sinon, elle commence par emettre le code evaluant argl dans reg_libre. Ensuite, 
reg_libre n'est plus libre (il contient la valeur de argl). Done, de deux choses l'une : 
ou bien on peut evaluer arg2 avec les registres restants, auquel cas la fonction emet le 
code qui evalue arg2 avec reg_libre + 1 comme registre de destination ; ou bien on 
n'a plus assez de registres libres, auquel cas la fonction sauvegarde la valeur de argl 
sur la pile (ce qui libere le registre reg_libre), emet le code qui evalue arg2 dans 
reg_libre et recharge la valeur de argl dans un registre temporaire (le registre 29). 

Compilation des instructions 

On passe maintenant a la compilation d'une instruction. La plupart des cas sont 
similaires a ceux de la compilation d'une expression. 

Fichier compil .ml 

let compteur_d' etiquettes = ref 0;; 

let nouvelle_etiq () = 

incr compteur_d' etiquettes; ! compteur_d' etiquettes ; ; 

let rec compile_instr env = function 
I Af f ectation_var (nom_var , 

Constante (Entiere 0 I Booleenne false)) -> 

affecte_var env nom_var 0 
I Af f ectation_var (nom_var , expr) -> 

compile_expr env expr 1 ; 

affecte_var env nom_var 1 
I Af f ectation_tableau(exprl , Constante cst2, expr3) -> 

let (inf , sup, type_elements) = type_de_tableau env exprl in 

let (reg3, regl) = compile_arguments env expr3 exprl 1 in 

printf "store r %d, °/„d, r 7 0 d\n" 

regl ((val_const cst2 - inf) * taille_du_mot) reg3 
I Af f ectation_tableau(exprl , expr2, expr3) -> 

let (inf, sup, type_elements) = type_de_tableau env exprl in 

compile_expr env expr3 1 ; 

let (regl, reg2) = compile_arguments env exprl expr2 2 in 

if inf <> 0 then printf "sub r 7„d, %d, r 7„d\n" reg2 inf reg2; 

printf "mult r °/,d, °/.d, r 7,d\n" reg2 taille_du_mot reg2; 
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printf "store r °/ 0 d, r °/.d, r °/.d\n" regl reg2 1 
I AppeKproc, arguments) -> 

let nbr_args = list_length arguments in 

reserve_pile nbr_args; 

let position = ref 0 in 

do_list (function arg -> 

compile_expr env arg 1 ; 
printf "store sp, 7 0 d, r l\n" Iposition; 
position := Iposition + taille_du_mot) 
arguments ; 

printf "jmp P°/ 0 s, ra\n" proc; 

libere_pile nbr_args 
I If (condition, branche_oui, Bloc [] ) -> 

let etiq_fin = nouvelle_etiq () in 

compile_expr env condition 1; 

printf "braz r 1, L°/ 0 d\n" etiq_fin; 

compile_instr env branche_oui; 

printf "L7,d:\n" etiq_fin 
I If (condition, Bloc [] , branche_non) -> 

let etiq_fin = nouvelle_etiq () in 

compile_expr env condition 1; 

printf "branz r 1, L°/ 0 d\n" etiq_fin; 

compile_instr env branche_non; 

printf "L7„d:\n" etiq_fin 
I If (Op_unaire("not" , condition), branche_oui, branche_non) -> 

compile_instr env (If (condition, branche_non, branche_oui) ) 
I If (condition, branche_oui, branche_non) -> 

let etiq_non = nouvelle_etiq () 

and etiq_fin = nouvelle_etiq () in 

compile_expr env condition 1; 

printf "braz r 1, L°/ 0 d\n" etiq_non; 

compile_instr env branche_oui; 

printf "braz r 0, L°/„d\n" etiq_fin; 

printf "L°/ 0 d:\n" etiq_non; 

compile_instr env branche_non; 

printf "L°/„d:\n" etiq_fin 
I While (condition, corps) -> 

let etiq_corps = nouvelle_etiq () 

and etiq_test = nouvelle_etiq () in 

printf "braz r 0, L°/ 0 d\n" etiq_test; 

printf "L7 0 d:\n" etiq_corps; 

compile_instr env corps; 

printf "L°/.d:\n" etiq_test; 

compile_expr env condition 1; 

printf "branz r 1, L°/,d\n" etiq_corps 
I Write expr -> 

compile_expr env expr 1 ; 

printf "write\n" 
I Read nom_var -> 

printf "read\n"; 

affecte_var env nom_var 1 
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I Bloc liste_instr -> 

do_list (compile_instr env) liste_instr 

and affecte_var env nom reg = 

let var = cherche_variable nom env in 
match var . emplacement with 
I Global_indirect n -> 

printf "store r 0, °/.d, r 7,d # 7,s \n" n reg nom 
I Local_indirect n -> 

printf "store sp, %d, r °/„d # %s \n" 

( ! prof ondeur_pile - n) reg nom;; 



Pour l'instruction if e then i\ else i2, le code produit a la forme suivante : 

code pour evaluer e dans le registre r 1 

braz r 1, Ln (branche si r 1 est false) 

code pour executer i\ 

braz r 0, Lm (branche touj ours) 
Ln : code pour executer %2 
Lm: suite du programme 

Les etiquettes Ln et Lm sont de nouvelles etiquettes produites par la fonction 
nouvelle_etiq. Dans le cas ou 12 est l'instruction vide (cas d'un if sans partie else), 
on supprime le branchement a Lm, qui ne sert a rien dans ce cas. 

On procede de meme pour l'instruction while e do i . Le test est place a la fin du 
corps de la boucle, pour ne faire qu'un saut par tour de boucle au lieu de deux : 

braz r 0, Lm (branche touj ours) 
Ln : code pour executer i 
Lm : code pour evaluer e dans le registre r 1 

branz r 1 , Ln (branche si r 1 est true) 

suite du programme 

Compilation des fonctions et des procedures 

La compilation d'une fonction ou d'une procedure se fait en deux parties : il faut 
d'une part attribuer des emplacements aux parametres et aux variables locales et 
construire l'environnement correspondant ; d'autre part, il faut emettre le code qui 
construit le bloc d'activation sur la pile. La seule subtilite est dans l'attribution 
des emplacements : une variable locale de type tableau a un emplacement de type 
Local_direct, puisque le tableau est alloue a plat dans la pile; en revanche, un 
parametre de type tableau a un emplacement de type Local_indirect, puisque c'est 
un pointeur vers le tableau passe en argument qui est empile (passage par reference) 
et non pas le tableau lui-meme (passage par valeur). 

Fichicr compil .ml 

let alloue_variable_locale (nom, typ) env = 

prof ondeur_pile := !prof ondeur_pile + taille_du_type typ; 
let emplacement = 
match typ with 
I Integer I Boolean -> 
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Local_indirect ( ! prof ondeur_pile) 
I Array (_, _, _) -> 

Local_direct( !prof ondeur_pile) in 
ajoute_variable nom {typ=typ; emplacement=emplacement> env; ; 

let alloue_parametres liste_des_parametres environnement = 
let prof = ref 0 in 
let env = ref environnement in 
do_list 
(function (nom.typ) -> 

env := ajoute_variable nom 

{typ=typ; emplacement = Local_indirect Iprof} 
! env; 

prof := Iprof - taille_du_mot) 
liste_des_parametres ; 
!env; ; 

let compile_procedure env (nom, decl) = 
let envl = 

alloue_parametres decl . proc_parametres env in 
prof ondeur_pile := taille_du_mot ; 
let env2 = 

list_it alloue_variable_locale decl.proc_variables envl in 
printf "P°/ 0 s:\n" nom; 

printf "sub sp, 7 0 d, sp\n" Iprof ondeur_pile; 

printf "store sp, °/ 0 d, ra\n" ( I prof ondeur_pile - taille_du_mot) ; 
compile_instr env2 decl.proc_corps; 

printf "load sp, 7 0 d, ra\n" ( Iprof ondeur_pile - taille_du_mot) ; 
printf "add sp, 7,d, sp\n" Iprof ondeur_pile; 
printf "jmp ra, r 0\n" ; ; 

let compile_f onction env (nom, decl) = 
let envl = 

alloue_parametres decl . f onc_parametres env in 
prof ondeur_pile := taille_du_mot ; 
let env2 = 

list_it alloue_variable_locale decl.f onc_variables envl in 
let env3 = 

alloue_variable_locale (nom, decl . f onc_type_resultat) env2 in 
printf "F7s:\n" nom; 

printf "sub sp, °/,d, sp\n" I prof ondeur_pile ; 

printf "store sp, °/,d, ra\n" ( I prof ondeur_pile - taille_du_mot) ; 
compile_instr env3 decl . f onc_corps ; 
printf "load sp, 0, r l\n" ; 

printf "load sp, °/,d, ra\n" ( Iprof ondeur_pile - taille_du_mot) ; 
printf "add sp, °/ 0 d, sp\n" Iprof ondeur_pile; 
printf "jmp ra, r 0\n" ; ; 
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Compilation d'un programme 

Tout est pret pour compiler un programme complet. Nous commencons par at- 
tribuer des adresses aux variables globales, obtenant ainsi l'environnement global de 
compilation, puis compilons successivement le corps du programme, les procedures et 
les fonctions dans cet environnement. 

Fichicr compil .ml 

let adresse_donnee = ref 0;; 

let alloue_variable_globale (nom, typ) env = 
let emplacement = 
match typ with 

I Integer I Boolean -> Global_indirect ( ! adresse_donnee) 
I Array (_, _, _) -> Global_direct ( ! adresse_donnee) in 

adresse_donnee := ! adresse_donnee + taille_du_type typ; 

ajoute_variable nom {typ=typ; emplacement=emplacement} env; ; 

let compile_programme prog = 
adresse_donnee := 0; 
let env_global = 

list_it alloue_variable_globale prog.prog_variables 
(environnement_initial prog.prog_procedures 

prog.prog_f onctions) in 
compile_instr env_global prog.prog_corps; 
printf "stop\n"; 

do_list (compile_procedure env_global) prog.prog_procedures ; 
do_list (compile_f onction env_global) prog. prog_f onctions; ; 



Le compilateur complet 

Pour terminer, voici le programme principal qui combine l'analyseur syntaxique, le 
verificateur de types et le compilateur. 

Fichier cpascal .ml 

#open "syntaxe" ; ; 

let compile_f ichier nom = 
try 

let canal = open_in sys command_line . (1) in 

try 

let prog = lire_programme (stream_of _channel canal) in 
close_in canal; 

typage type_programme prog; 

compil compile_programme prog 

with Parse_error I Parse_f ailure -> 

prerr_string "Erreur de syntaxe aux alentours \ 

du caractere numero " ; 
prerr_int (pos_in canal) ; 
prerr_endline "" 

I typage Erreur_typage err -> 

typage af f iche_erreur err 
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with sys Sys_error message -> 

prerr_string "Erreur du systeme: "; prerr_endline message;; 

if sys interactive then () else 

begin compile_f ichier sys command_line . (1) ; exit 0 end;; 



Mise en pratique 

Pour compiler le tout : 



$ 


camlc 


-c 


lexuniv .mli 


$ 


camlc 


-c 


lexuniv .ml 


$ 


camlc 


-c 


syntaxe .mli 


$ 


camlc 


-c 


syntaxe .ml 


$ 


camlc 


-c 


envir .mli 


$ 


camlc 


-c 


envir .ml 


$ 


camlc 


-c 


typage .mli 


$ 


camlc 


-c 


typage .ml 


$ 


camlc 


-c 


compil .mli 


$ 


camlc 


-c 


compil .ml 


$ 


camlc 


-c 


cpascal .ml 


$ 


camlc 


-o 


cpascal lexuniv. zo syntaxe. zo envir. zo \ 



typage. zo compil. zo cpascal. zo 



Langons le compilateur sur le fichier f ibl .pas donne en exemple page 277, par camlrun 

cpascal f ibl .pas depuis l'interprete de commandes, ou par cpascal compile f ichier 

"f ibl .pas" depuis le systeme interactif. Nous obtenons le code suivant (la presentation 
a ete legerement modifiee pour etre plus lisible) . 



read 

store r 0, 0, r 1 # n 

sub sp, 4, sp 

load r 0, 0, r 1 # n 

store sp, 0, r 1 

jmp Ffib, ra 

add sp, 4, sp 

write 

stop 

Ffib: sub sp, 8, sp 

store sp, 4, ra 

load sp, 8, r 1 # n 

sit r 1, 2, r 1 

braz r 1, LI 

add r 0, 1, r 1 

store sp, 0, r 1 # fib 

braz r 0 , L2 
LI: sub sp, 4, sp 

load sp, 12, r 1 # n 

sub r 1, 1, r 1 



store sp, 0, r 1 
jmp Ffib, ra 
add sp, 4, sp 
sub sp, 4, sp 
store sp, 0, r 1 
sub sp, 4, sp 
load sp, 16, r 1 # n 
sub r 1, 2, r 1 
store sp, 0, r 1 
jmp Ffib, ra 
add sp, 4, sp 
load sp, 0, r 29 
add sp, 4, sp 
add r 29, r 1, r 1 
store sp, 0, r 1 # fib 
L2: load sp, 0, r 1 
load sp, 4, ra 
add sp , 8 , sp 
jmp ra, r 0 



Quoique loin d'etre optimal, ce code n'est pas de trop mauvaise facture. L'inefficacite 
la plus grossiere est la sequence add sp, 4, sp; sub sp, 4, sp au milieu de la 
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fonction fib, qui pourrait avantageusement etre supprimee. De maniere plus generale, 
il vaudrait mieux calculer a l'avance le nombre d'emplacements de pile necessaires pour 
les temporaires et les allouer une fois pour toutes au debut de la fonction, plutot que 
d'incrementer et de decrementer le pointeur de pile a chaque fois qu'on a besoin d'un 
temporaire. 

15.4 Pour aller plus loin 

Le compilateur Pascal presente dans ce chapitre se prete a de nombreuses extensions. 
Une premiere direction est d'enrichir le langage : pointeurs, nombres flottants, fonctions 
et procedures locales, . . . En particulier, les fonctions et procedures locales posent 
des problemes de compilation interessants. Lorsque le langage interdit aux fonctions 
locales d'etre renvoyees en resultats par d'autres fonctions, comme c'est le cas en Pascal, 
un chainage des blocs d'activation dans la pile suffit. En revanche, dans les langages 
fonctionnels comme Caml ou les fonctions sont des valeurs «de premiere classe», une 
pile ne suffit plus pour representer les environnements devaluation des fonctions et il 
est necessaire de modeliser les fonctions par des structures allouees dynamiquement : 
les fermetures (closures, en anglais). Nous reviendrons sur cette notion au chapitre 17. 

Une deuxieme direction est d'ameliorer la qualite du code produit par le compi- 
lateur. En particulier, il faudrait essayer de stocker les variables locales autant que 
possible dans les registres et non pas dans la pile. Detecter les variables locales qui 
se pretent a ce traitement et leur attribuer des registres de maniere coherente est un 
probleme difficile. 

Une troisieme direction est d'ameliorer la structure interne du compilateur. Nous 
avons vu que, pour afficher correctement les erreurs de typage, il faudrait annoter 
les noeuds de l'arbre de syntaxe abstraite par des numeros de ligne et des positions 
dans le code source. D'autres informations devraient elles aussi figurer en annotations 
sur l'arbre de syntaxe abstraite, comme le type attribue a chaque nceud par la phase 
de typage, ainsi que les besoins en registres de chaque expression. Cela eviterait de 
recalculer de nombreuses fois ces informations lors de la compilation. 

Bibliographie 

Parmi les nombreux ouvrages publies sur les compilateurs, nous recommandons 
Compilateurs : principes, techniques et outils, de Aho, Sethi et Ullman (InterEditions) 
et Modern compiler implementation in ML, d'Appel (Cambridge University Press). 
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ECHERCHER LES OCCURRENCES d'un motif dans un texte est une operation 
cruciale dans de nombreux outils informatiques : traitement de texte, editeurs, 
navigateurs Web, etc. Nous implementons ici un outil qui affiche toutes les 
lignes d'un fichier contenant un motif donne, dans le style de la commande grep d'Unix. 
Pour ce faire, nous introduisons les notions d'automates et d'expressions rationnelles, 
qui sont un des fondements de l'informatique. Nous montrons comment manipuler en 
Caml des graphes et plus generalement des structures de donnees qui contiennent des 
cycles. 

16.1 Les motifs 

Dans le cas le plus simple, le motif que Ton recherche dans un fichier est une suite 
de caracteres precise. Par exemple, en Unix, la commande grep xop dictionnaire 
affiche toutes les lignes du fichier dictionnaire qui contiennent la chaine xop. Pour 
plus de souplesse dans la recherche, on autorise des « jokers » dans la chaine a chercher. 
Ainsi, grep c.r dictionnaire affiche toutes les lignes contenant un c suivi d'une 
lettre quelconque puis d'un r ; de meme grep c . *r affiche toutes les lignes contenant 
un c puis un r, separes par un nombre quelconques de lettres. 

Nous utiliserons une famille encore plus generale de motifs connus sous le nom 
d'expressions rationnelles (en anglais regular expressions). Une expression rationnelle 
est ou bien : 

• un caractere c 

• l'expression vide, notee e 

• une alternative e\ | e2, ou e\ et e2 sont elles-memes deux expressions rationnelles 

• une sequence eie2, ou e\ et e2 sont elles-memes deux expressions rationnelles 

• une repetition e*, ou e est une expression rationnelle. 
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Pour chaque expression rationnelle, on definit les chaines de caracteres reconnues par 
cette expression rationnelle. 

• L'expression c, ou c est un caractere, reconnait la chaine a un seul caractere c, et 
rien d' autre. 

• L'expression e reconnait la chaine vide et rien d' autre. 

• L'expression e± | e2 reconnait les chaines qui sont reconnues par e\ ou par e^. 

• L'expression eie2 reconnait les chaines composees d'une chaine reconnue par ei 
suivie d'une chaine reconnue par ei- 

• L'expression e* reconnait les chaines composees de zero, une ou plusieurs chaines 
toutes reconnues par e. 

Par exemple, l'expression cal(i|y)(ph|f )e reconnait quatre orthographes envisageables 
pour le mot calif e. De meme, l'expression 

(-| + |e) (0|1|2|3|4|5|6|7|8|9) (0|l|2|3|4|5|6|7|8|9)* 

reconnait toutes les representations decimales de nombres entiers, eventuellement 
precedees d'un signe. 

16.2 Syntaxe abstraite et syntaxe concrete des motifs 

Commengons par construire un module expr definissant la representation interne 
(syntaxe abstraite) des expressions rationnelles, ainsi qu'une fonction pour lire une 
representation textuelle (syntaxe concrete) d'une expression rationnelle. Voici l'interface 
de ce module : 

Fichicr expr. ml i 

type expr = 
I Epsilon 

I Caracteres of char list 
I Alternative of expr * expr 
I Sequence of expr * expr 
I Repetition of expr; ; 

value lire : char stream -> expr; ; 



La syntaxe abstraite (le type concret expr) suit de tres pres la definition des ex- 
pressions rationnelles donnee ci-dessus. La seule difference est que, pour des raisons 
d'efficacite, le constructeur Caracteres prend en argument non pas un seul caractere, 
mais une liste de caracteres. L'expression Caracteres [ci; . . . ; c n ] represente P alternative 
ci | . . . | c n . 

La syntaxe concrete des expressions rationnelles ressemble a celle employee par 
grep. Elle introduit un certain nombre de constructions syntaxiques derivees des con- 
structions de base (alternative, sequence, repetition). 

• Le point . represente n'importe quel caractere, c'est-a-dire l'alternative entre tous 
les caracteres. 
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• Un caractere non special represente l'expression mono-caractere correspondante. 
La barre oblique inversee (backslash) sert d'echappement pour les caracteres 
speciaux : \ suivi de n'importe quel autre caractere represente ce caractere. En 
particulier, \\ est le caractere \. 

• Les crochets [ . . . ] representent des ensembles de caracteres. Par exemple, 
[aeiou] represente a|e|i|o|u. Le tiret - denote des intervalles : [0-9] represente 
tous les chiffres, [A-Za-z] toutes les lettres. On prend le complementaire d'un 
ensemble en mettant un chapeau " juste apres le crochet : [~0-9] represente tout 
caractere qui n'est pas un chiffre. 

• Les combinaisons d'expressions rationnelles sont notees comme suit : 



Combinaison 


Notation 


Exemple 


Signification 


Alternative 


I infixe 


le | la| les 


le, ou la, ou les 


Sequence 


concatenation 


x[0-9] 


x puis un chiffre 


Repetition 


* postfixe 


[0-9] * 


zero, un ou plusieurs 








chiffres 


Repetition stricte 


+ postfixe 


[0-9] + 


un ou plusieurs 








chiffres 


Option 


? postfixe 


[+-]? 


un signe plus, un 








signe moins, ou rien 



L'alternative a la priorite la plus faible, puis la sequence, puis les repetitions. Pour 
passer outre ces priorites, on dispose des parentheses (...). 

• Un signe chapeau " en debut d'expression rationnelle signifie que le mot reconnu 
doit apparaitre en debut de ligne. Un signe dollar $ en fin d'expression rationnelle 
signifie que le mot reconnu doit se trouver en fin de ligne. Par defaut, le mot 
reconnu se situe n'importe ou dans la ligne. 



Notation 


Reconnait . . . 


Codage 


~e$ 


les lignes reconnues par e 


e 


~e 


les lignes commengant par un 


e . * 




mot reconnu par e 




e$ 


les lignes finissant par un 


. *e 




mot reconnu par e 




e 


les lignes contenant un mot 


. *e . * 




reconnu par e 





Voici maintenant Pimplementation du module expr, qui fournit Panalyseur pour la 
syntaxe qu'on vient de decrire. 

Fichicr expr . ml 

let intervalle cl c2 = 

let rec interv nl n2 = 

if nl > n2 then [] else char_of _int nl : : interv (nl + 1) n2 in 

interv (int_of _char cl) (int_of _char c2) ; ; 



let tous_car = intervalle '\000' '\255';; 
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La fonction intervalle construit la liste de tous les caracteres entre les deux car- 
acteres donnes. Elle sert pour l'expansion des classes de caracteres. La liste tous_car 
est la liste des 256 caracteres du code ASCII. Elle sert pour l'expansion de la construc- 
tion « . » en la classe de tous les caracteres. 

L'essentiel de l'analyse syntaxique est effectue par le groupe de fonctions mutuelle- 
ment recursives ci-dessous. (La syntaxe d'entree est si primitive que nous n'avons pas 
besoin d'une phase prealable d'analyse lexicale.) Le decoupage en plusieurs fonctions 
intermediaries assure en particulier que les priorites entre operateurs sont respectees. 

Fichicr expr . ml 

let rec lire_expr = function 

I [< lire_seq rl; (lire_alternative rl) r2 >] -> r2 

and lire_alternative rl = function 

I [< " |' ; lire_expr r2 >] -> Alternative (rl ,r2) 
I [< >] -> rl 

and lire_seq = function 

I [< lire_repet rl; (lire_f in_seq rl) r2 >] -> r2 

and lire_fin_seq rl = function 

I [< lire_seq r2 >] -> Sequence (rl ,r2) 
I [< >] -> rl 

and lire_repet = function 

I [< lire_simple rl; (lire_f in_repet rl) r2 >] -> r2 

and lire_f in_repet rl = function 
| [< "*' >] -> Repetition rl 
| [< >'+' >] -> Sequence (rl, Repetition rl) 
| [< "?' >] -> Alternative (rl, Epsilon) 
I [< >] -> rl 

and lire_simple = function 

| [<".'>]-> Caracteres tous_car 

I [<''['; lire_classe cl >] -> Caracteres cl 

I [< "('; lire_expr r; ")' >] -> r 

I [< "W; 'c >] -> Caracteres [c] 

I [< (stream_check 

(function c -> c <> T && c <> ')' && c <> '$')) c >] -> 
Caracteres [c] 

and lire_classe = function 

I [<""'; lire_ensemble cl >] -> subtract tous_car cl 
I [< lire_ensemble cl >] -> cl 

and lire_ensemble = function 
I [<"]'>] -> [] 

I [< lire_car cl; (lire_intervalle cl) c2 >] -> c2 
and lire_intervalle cl = function 
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I [< lire_car c2; lire_ensemble reste >] -> 

union (intervalle cl c2) reste 
I [< lire_ensemble reste >] -> union [cl] reste 

and lire_car = function 
I [< "\V; 'c >] -> c 
I [< 'c >] -> c; ; 



Nous avons du introduire les fonctions intermediaries lire_alternative, 
lire_f in_seq, etc., pour tenir compte du caractere entierement deterministe du 
filtrage sur les flux. Pour lire_expr par exemple, il aurait ete plus naturel d'ecrire : 

let rec lire_expr = function 

I [< lire_seq rl; ''I'; lire_expr r2 >] -> Alternative (rl,r2) 
I [< lire_seq rl >] -> rl 

Cette ecriture ne donne pas le resultat attendu : si lire_seq reconnait le debut du flux, 
on s'engage de maniere definitive dans le premier cas du filtrage. Si le prochain caractere 
du flux n'est pas une barre verticale, le systeme declenche une erreur de syntaxe, mais 
ne se rabat pas sur le deuxieme cas du filtrage. 

II faut done appliquer aux motifs des fonctions d'analyse la technique connue sous le 
nom de « factorisation a gauche » : la fonction lire_expr commence par reconnaitre le 
prefixe commun aux deux cas, e'est-a-dire lire_seq, puis appelle la fonction d'analyse 
auxiliaire lire_alternative pour tester la presence de la barre verticale. S'il y en a 
une, le premier cas de lire_alternative est selectionne, et appelle recursivement 
lire_expr pour lire l'expression qui suit. Sinon, lire_alternative ne lit rien et 
lire_expr renvoie simplement l'expression lue par lire_seq. 

Fichicr expr.ml 

let lire = function 

I [< (function [< >] -> true I [< >] -> false) chapeau; 

lire_expr r; 

(function [< "$' >] -> true I [< >] -> false) dollar >] -> 
let rl = if dollar then r else 

Sequence(r, Repetition(Caracteres tous_car)) in 
if chapeau then rl else 

Sequence (Repetition(Caracteres tous_car) , rl) ; ; 



La fonction lire, point d'entree du module, lit une expression rationnelle 
eventuellement precedee d'un caractere " ou suivie d'un caractere $. Remarquez que, 
depuis Pinterieur d'un motif de flux, il est possible d'appeler des fonctions d'analyse 
anonymes (non nominees), introduites par function. 

16.3 Les automates 

Pour programmer la commande grep, il faut savoir determiner si une expression 
rationnelle reconnait une chaine de caracteres. La traduction naive de la definition des 
chaines reconnues par une expression rationnelle mene a un algorithme par essais et 
erreurs qui est tres inefficace dans les cas defavorables. Intuitivement, pour reconnaitre 
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une expression de la forme . *e . *, il faut essayer de reconnaitre e a toutes les positions 
possibles dans la chaine. Si plusieurs expressions de ce type se suivent, comme dans 
. *ei . *e2 . . . e n . *, le nombre de combinaisons a essayer devient tres grand. 

La maniere efficace de determiner si une expression rationnelle reconnait une chaine 
de caracteres est de transformer d'abord l'expression rationnelle en un automate qui 
reconnait les memes mots, puis d'executer l'automate sur ladite chaine de caracteres. 
Intuitivement, un automate est une machine tres simplifiee, specialised dans la recon- 
naissance des mots. Elle se compose d'un certain nombre d' etats (represented par des 
cercles) relies entre eux par des transitions (representees par des Heches). Les transitions 
sont etiquetees ou bien par une lettre, ou bien par le mot vide e. 




La regie du jeu est la suivante : a partir d'un etat, on a le droit de passer dans un 
autre etat soit parce qu'il existe une transition marquee e de l'etat de depart vers l'etat 
d'arrivee, soit parce qu'il existe une transition marquee x (ou x est le prochain caractere 
de la chaine a reconnaitre) de l'etat de depart vers l'etat d'arrivee. Par exemple, dans 
l'automate ci-dessus, on peut passer de l'etat de gauche a l'etat de droite si la chaine a 
reconnaitre commence par ab, ac, b, ou c. 

Dans un automate, certains etats sont marques comme etats terminaux. Un des 
etats est marque comme etat initial. (Dans les dessins, l'etat initial est signale par une 
petite fieche entrante du cote gauche ; les etats terminaux sont en trait plus epais.) 

0 




Le jeu consiste a essayer de trouver un chemin qui part de l'etat initial et aboutit sur 
un etat terminal, apres avoir lu tous les caracteres de la chaine donnee en entree. Si un 
tel chemin existe, on dit que l'automate reconnait la chaine. Par exemple, l'automate 
ci-dessus a gauche reconnait les mots le, la, les, et rien d'autre. L'automate ci-dessus 
a droite reconnait les nombres ecrits en base deux, c'est-a-dire les memes mots que 
l'expression rationnelle -?[01]+. 



16.4 Des expressions rationnelles aux automates 

Expressions rationnelles et automates sont relies de maniere tres etroite: a toute 
expression rationnelle correspond un automate qui reconnait exactement les memes 
mots que l'expression de depart. Les automates peuvent done etre vus comme des 
formes compilees d'expressions rationnelles. 

Nous allons maintenant programmer une fonction qui transforme une expression 
rationnelle en automate. Le module correspondant s'appelle auto ; void son interface. 
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Fichier auto. ml i 

#open "expr" ; ; 

type etat = 

{ mutable transitions : (char * etat) list; 
mutable epsilon_transitions : etat list; 
mutable terminal : bool; 
numero : int } ; ; 

value expr_vers_automate : expr -> etat;; 

Un etat de Pautomate est represente par un enregistrement a quatre champs. Le 
champ terminal indique si Petat est terminal ou non. Les champs transitions et 
epsilon_transitions contiennent la liste des Heches sortant de Petat, avec pour 
chaque fleche Petat auquel elle mene. Le champ numero sert a identifier les etats de 
maniere unique : deux etats differents portent des numeros differents. 

L'automate lui-meme est represente par son etat initial. Les autres etats de 
Pautomate « pendent » sous Petat initial: ils sont accessibles en descendant dans les 
champs transitions et epsilon_transitions. 

L'implementation du module auto comporte deux parties : premierement, quelques 
petites fonctions de manipulation des etats ; deuxiemement, la fonction de compilation 
d'une expression rationnelle en automate. 

Fichier auto .ml 

#open "expr" ; ; 

let compteur_d' etats = ref 0;; 

let nouvel_etat () = 
incr compteur_d' etats ; 

{ transitions = [] ; epsilon_transitions = [] ; 

terminal = false; numero = ! compteur_d' etats };; 

let ajoute_trans nl c n2 = 

nl .transitions <- (c, n2) :: nl .transitions; ; 

let ajoute_eps_trans nl n2 = 

nl . epsilon_transitions <- n2 :: nl . epsilon_transitions ; ; 

type automate_de_thompson = 
{ initial : etat; 
final : etat } ; ; 

let rec thompson = function 
I Epsilon -> 

let el = nouvel_etat () and e2 = nouvel_etat () in 
ajoute_eps_trans el e2; 
{initial = el; final = e2} 
I Caracteres cl -> 

let el = nouvel_etat () and e2 = nouvel_etat () in 
do_list (function c -> ajoute_trans el c e2) cl; 
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{initial = el; final = e2} 
I Alternative (rl, r2) -> 

let tl = thompson rl and t2 = thompson r2 in 

let el = nouvel_etat () and e2 = nouvel_etat () in 

ajoute_eps_trans el tl. initial; ajoute_eps_trans el t2. initial; 

ajoute_eps_trans tl. final e2; ajoute_eps_trans t2. final e2; 

{initial = el; final = e2} 
I Sequence (rl, r2) -> 

let tl = thompson rl and t2 = thompson r2 in 

ajoute_eps_trans tl. final t2. initial; 

{initial = tl. initial; final = t2. final} 
I Repetition r -> 

let t = thompson r in 

let el = nouvel_etat () and e2 = nouvel_etat () in 
ajoute_eps_trans t. final t. initial; 
ajoute_eps_trans el t. initial; 
ajoute_eps_trans t. final e2; 
ajoute_eps_trans el e2; 
{initial = el; final = e2};; 

let expr_vers_automate r = 

let t = thompson r in t . final .terminal <- true; t. initial;; 

L'algorithme de transformation d'une expression rationnelle en automate employe 
ci-dessus est connu sous le nom de « construction de Thompson ». Les automates qu'il 
produit ont la particularite d'avoir un seul etat terminal, qu'on appelle l'etat final, 
par symetrie avec l'etat initial. De plus, aucune transition ne sort de l'etat final. On 
introduit le type automate_de_thompson pour garder en meme temps un pointeur sur 
l'etat initial et un pointeur sur l'etat final de l'automate. 

La construction de Thompson procede par recurrence sur la structure de l'expression 
rationnelle. Pour les deux cas de base, Epsilon et Caracteresfci; . . . ;c n ], on renvoie 
les deux automates suivants : 



Clairement, l'automate de gauche reconnait uniquement le mot vide, et l'automate 
de droite uniquement les chaines mono-caracteres c±, . . . , c n . Pour le cas Sequence (n, r2), 
on construit recursivement les automates de Thompson correspondant a r\ et , et on 
met une transition etiquetee e de l'etat final de l'automate pour r\ vers l'etat initial 
de l'automate pour r<i- 



L'automate resultant reconnait les concatenations d'un mot reconnu par 
thompson t\ et d'un mot reconnu par thompson r^. II reconnait done bien les 
memes mots que l'expression rationnelle Sequence (r±, r-i). En suivant un raisonnement 
semblable, on prend pour les cas Alternative(ri, r-i) et Repetition(r) : 
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£ £~7thompson(ri, ' - 



thompson(r2) 




— *"(3"~*"0l thompson(r) 




La fonction expr_vers_automate est alors tres simple : on construit l'automate de 
Thompson associe a l'expression rationnelle, on marque son etat final comme etant 
terminal, et on renvoie l'etat initial. 



16.5 Determinisation de l'automate 



Ayant obtenu un automate qui reconnait les memes chaines que l'expression ra- 
tionnelle de depart, il nous reste a programmer une fonction qui teste si une chaine 
est reconnue ou non par l'automate. Ce test n'est pas immediat en general: puisque 
plusieurs transitions portant le meme caractere peuvent sortir d'un meme etat, il faut 
quelquefois essayer plusieurs chemins qui epellent la chaine a reconnaitre. Cependant, 
il existe une classe d'automates, les automates deterministes, pour lesquels le probleme 
est beaucoup plus simple. Un automate deterministe a les deux proprietes suivantes : 

1. il ne possede pas de transition marquee e 

2. d'un meme etat il ne part jamais plusieurs transitions marquees par le meme 
caractere. 

Voici par exemple deux automates deterministes reconnaissant le, la, les pour celui 
de gauche, et les entiers en base deux pour celui de droite. 




Pour tester si une chaine est reconnue par un automate deterministe, il suffit de 
partir de l'etat initial et de suivre a chaque etat la transition (unique) marquee par 
le prochain caractere de la chaine. Si on aboutit sur un etat terminal, la chaine est 
reconnue. Si on aboutit sur un etat non terminal, ou si on reste bloque en cours de 
route parce qu'un etat n'a pas de transition sur le prochain caractere, alors la chaine 
n'est pas reconnue. 

La theorie des automates montre que pour tout automate il existe un automate 
deterministe qui reconnait exactement les memes chaines. Nous allons done commencer 
par transformer l'automate precedemment construit en un automate deterministe, puis 
utiliser cet automate deterministe pour decider si une chaine est reconnue ou pas. Voici 
l'interface du module determ, qui fournit ces deux fonctions. 
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Fichier determ.mli 

type etat = 

{ mutable dtransitions : transition vect; 
dterminal : bool } 
and transition = 

I Vers of etat 

I Rejet;; 

value determinise : auto etat -> determ etat 

and reconnait : determ etat -> string -> bool;; 



Un etat d'un automate deterministe est represente par un enregistrement a deux 
champs: un booleen dterminal, indiquant si l'etat est terminal ou non, et un tableau 
dtransitions a 256 cases, une par caractere du jeu ASCII. Le constructeur Vers 
indique la presence d'une transition vers l'etat indique ; le constructeur Re j et indique 
l'absence de transition. 

L'implementation de la fonction reconnait est tres simple. 

Fichier determ. ml 

exception Echec;; 

let reconnait automate chaine = 

let etat_courant = ref automate in 
try 

for i = 0 to string_length chaine - 1 do 

match ! etat_courant . dtransitions . (int_of_char chaine. [i] ) 
with Rejet -> raise Echec 

I Vers e -> etat_courant := e 
done ; 

! etat_courant . dterminal 
with Echec -> false;; 



Le reste du fichier determ. ml est consacre a la fonction de determinisation d'un 
automate. L'algorithme utilise est connu sous le nom de « construction des sous- 
ensembles » (subset construction). Les etats de l'automate deterministe correspondent 
a des ensembles d'etats de l'automate de depart : tous les etats qu'on peut atteindre a 
partir de l'etat initial en suivant une certaine chaine de caracteres. 

L'etat initial de l'automate deterministe est l'ensemble des etats qu'on peut attein- 
dre en suivant la chaine vide, e'est-a-dire l'etat initial de l'automate de depart, plus 
tous les etats qu'on peut atteindre a partir de l'etat initial en suivant uniquement des 
epsilon-transitions (des transitions marquees e). 

L'etat correspondant a l'ensemble d'etats {e±, . . . , e n } est terminal si et seulement 
si un des etats e±, . . . , e n est terminal. 

Pour voir ou mene la transition sur un caractere c issue de l'ensemble d'etats 
{ei,...,e n }, on regarde toutes les transitions sur c issues des etats e\ a e n dans 
l'automate initial. Soient fx, . . . , f m les etats auxquels elles menent. Soient gi,...,g p le& 
etats accessibles a partir de fi,...,f m en suivant uniquement des epsilon-transitions. 
On ajoute alors, dans l'automate deterministe produit, une transition sur c depuis l'etat 



Determinisation de Vautomate 



315 



{ei, . . . ,e n } vers l'etat {/i, . . . , f m , gi, . . . , <? p }. On repete ce precede jusqu'a ce qu'il soit 
impossible d'ajouter de nouvelles transitions. 

A titre d'exemple, nous allons determiniser l'automate produit pour l'expression 
. *toto par la fonction expr_vers_automate. 

e 




Les etats sont numerates de 1 a 12 pour etre reperes plus facilement. A partir de 
l'etat initial 1, on peut atteindre 2, 4 et 5 par epsilon-transitions. L'etat initial de 
l'automate deterministe est done {1,2,4,5}. II est non terminal. 



-» { 1,2,4,5"^ ) 

II y a deux types de transitions issues de cet etat : la transition sur t et les transitions 
sur un caractere autre que t. Sur t, 2 mene a 3, 5 mene a 6, 2 et 4 ne menent a 
rien. A partir de 3, on peut atteindre 2, 4, 5 par epsilon-transitions. A partir de 6, on 
peut atteindre 7 par epsilon-transition. On ajoute done une transition sur t issue de 
{1, 2, 4, 5} et menant a {2, 3, 4, 5, 6, 7}. De meme, sur un caractere autre que t, 2 mene 
a 3 et 2, 4, 5 ne menent a rien. A partir de 3, on peut atteindre 2, 4, 5 par epsilon- 
transitions. On ajoute done des transitions sur tous les caracteres sauf t, transitions 
issues de {1, 2, 4, 5} et menant a {2, 3, 4, 5}. 

pas t 



— < 1,2,4,5 > 



< 2,3,4,5 ) 



2,3,4,5,677) 

En repetant ce raisonnement jusqu'a plus soif, on finit par obtenir l'automate 
deterministe suivant : 



-» < 1,2,4,5 yl^X( 2,3,4^ 



pas t 



2,3,4,5,6,7 ) 



pas o 



( 2,3,4,5,8,9 ) 



pas t 



<2,3,4,5,6,7,lMl) 



pas o 



pas t 



( 2,3,4,5,8,9,12"") 

Seul l'etat {2, 3, 4, 5, 8, 9, 12} est terminal, puisque e'est le seul a contenir l'etat terminal 
12 de l'automate de depart. 
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Nous allons maintenant implementer cet algorithme de determinisation en Caml. 
La premiere chose a faire est de fournir une representation des ensembles d'etats, ainsi 
que les operations de base sur ces ensembles. 

Fichicr determ.ml 

#open "auto" ; ; 

type ensemble_d' etats = 

{ contenu : ensent t; 

elements : auto etat list };; 

let vide = { contenu = ensent vide; elements = [] };; 

let est_vide ens = 

match ens. elements with [] -> true I _ -> false;; 
let appartient etat ens = 

ensent appartient etat.numero ens . contenu; ; 

let ajoute etat ens = 

{ contenu = ensent ajoute etat.numero ens. contenu; 

elements = etat :: ens. elements };; 



Un ensemble d'etats est represente par la liste des etats appartenant a l'ensemblc 
(champ elements), et par un ensemble d'entiers (champ contenu) : les numeros des 
etats appartenant a l'ensemble. On se donne un module ensent qui implemente le 
type ensent t des ensembles d'entiers. Voici son interface ; on donne en annexe (sec- 
tion 16.7) une implementation possible de ce module. 

Fichier ensent .mli 

type t ; ; 
value vide : t 

and appartient : int -> t -> bool 

and ajoute : int -> t -> t;; 



Cette representation apparemment redondante des ensembles d'etats est bien 
adaptee a l'utilisation qu'on en fait par la suite: le champ elements permet d'iterer 
facilement sur tous les etats d'un ensemble ; le champ contenu permet de tester 
emcacement l'appartenance et l'egalite entre ensembles. (La primitive d'egalite struc- 
turelle = n'est pas utilisable pour comparer des etats, parce que la structure qui 
«pend» sous un etat est susceptible de contenir des cycles, qui font boucler l'egalite.) 

Viennent ensuite les deux operations de base de l'algorithme de determinisation : 
d'une part, ajouter a un etat ou ensemble d'etats tous les etats qu'on peut atteindre par 
des epsilon-transitions (ce qu'on appelle prendre la «fermeture» d'un etat ou ensem- 
ble d'etats) ; d'autre part, determiner les transitions possibles a partir d'un ensemble 
d'etats. 

Fichicr determ.ml 

let rec ajoute_f ermeture etat ferm = 
if appartient etat ferm then ferm else 
list_it ajoute_f ermeture 

etat . epsilon_transitions (ajoute etat ferm);; 

let f ermeture etat = ajoute_f ermeture etat vide;; 
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On appelle fermeture d'un etat l'ensemble des etats accessibles depuis cet etat en 
zero, une ou plusieurs epsilon-transitions. A partir de l'etat e, on atteint e et aucun 
autre etat en zero epsilon-transitions. En une ou plusieurs transitions, on passe d'abord 
par un etat e' accessible a partir de e par une epsilon-transition, puis on atteint un des 
etats appartenant a la fermeture de e' . 

Cela suggere la definition suivante de la fonction fermeture: f ermeture(e) 
est l'union du singleton {e} et des ensembles f ermeture(e') pour e' decrivant 
e.epsilon_transitions. 

Cette definition est incorrecte a cause des cycles possibles : par exemple si e possede 
une epsilon-transition vers e' qui a une epsilon-transition vers e. Pour contourner cette 
difficulte, l'idee est de garder un ensemble des etats qu'on sait d'ores et deja appartenir 
a la fermeture. S'il se presente un etat e qui n'est pas dans cet ensemble, on l'ajoute et 
on examine recursivement tous les etats de e.epsilon_transitions. Si l'etat e est deja 
dans cet ensemble, il n'y a rien a faire. La fonction ajoute_f ermeture implemente cet 
algorithme. Les fonctions fermeture et f ermeture_ens sont de simples applications 
de fermeture obtenues en prenant l'ensemble vide comme ensemble d'etats deja vus. 

Fichicr determ.ml 

let deplacements liste_etats = 
let t = make_vect 256 vide in 
do_list 

(function etat -> 
do_list 

(function (car, dest) -> 

let i = int_of_char car in t.(i) <- ajoute dest t.(i)) 
etat . transitions) 
liste_etats ; 
t; ; 



La fonction deplacements ci-dessus calcule toutes les transitions possibles a partir 
d'un ensemble d'etats. Elle renvoie un tableau de 256 ensembles d'etats, qui fait corre- 
spondre a chaque caractere l'ensemble des etats atteints par transition sur ce caractere. 
Lorsque cet ensemble est vide, cela signifie qu'il n'y a pas de transition possible sur ce 
caractere. 

Nous pouvons maintenant attaquer la fonction de determinisation proprement dite. 
L'idee de depart est simple : pour calculer l'etat de l'automate deterministe correspon- 
dant a un ensemble d'etats e, on calcule deplacements(e), et pour chaque transition 
possible, on calcule la fermeture de l'ensemble d'etats destination, puis on construit par 
un appel recursif l'etat destination de la transition, qui est l'etat correspondant a cette 
fermeture. Traduisant directement cette approche en Caml Light, on prendrait : 

let rec determinise ens = 

{ dterminal = exists (function e -> e. terminal) ens . elements ; 
dtransitions = map_vect determ_trans (deplacements ens) } 
and determ_trans dest = 

if est_vide dest 
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then Re jet 

else Vers (determinise (fermeture_ens dest));; 

Cette approche est malheureusement inadaptee a la structure de graphe des auto- 
mates : dans le cas d'une transition qui reboucle sur l'etat dont elle est issue, la fonction 
determinise va se rappeler a 1'infini sur le meme ensemble d'etats. 

Pour contourner cette difficulte, il faut separer construction d'un nouvel etat et 
calcul des transitions issues de cet etat : les etats sont crees initialement sans transitions 
sortantes, et on les complete ulterieurement en ajoutant les transitions convenables. 

Fichicr determ.ml 

let determinise etat_initial = 

let etats_connus = hashtbl new 51 

and a_remplir = stack new () in 

let traduire ens = 

try hashtbl find etats_connus ens.contenu 

with Not_found -> 
let nouvel_etat = 

{ dterminal = exists (function n -> n. terminal) ens . elements ; 
dtransitions = make_vect 256 Re jet } in 

hashtbl add etats_connus ens.contenu nouvel_etat; 

stack push (ens . elements , nouvel_etat) a_remplir; 

nouvel_etat in 
let nouvel_etat_initial = 

traduire (fermeture etat_initial) in 
begin try- 
while true do 

let (liste, nouvel_etat) = stack pop a_remplir in 

let depl = deplacements liste in 
for i = 0 to 255 do 

if not est_vide depl.(i) then 
nouvel_etat . dtransitions . (i) se- 
vers (traduire (f ermeture_ens depl.(i))) 

done 
done 

with stack Empty -> () 

end; 

nouvel_etat_initial ; ; 



Le coeur de la fonction de determinisation est la fonction traduire, qui prend en 
argument un ensemble d'etats de l'automate de depart et renvoie l'etat correspondant 
de l'automate deterministe. Si l'ensemble d'etats a deja ete rencontre, on trouve dans 
la table etats_connus l'etat associe. Sinon, on cree un nouvel etat, on l'associe a 
l'ensemble d'etats dans la table etats_connus, et on le renvoie. Pour eviter le bouclage, 
on n'essaye pas de calculer immediatement les transitions issues du nouvel etat : ce 
dernier est cree sans aucune transition sortante. On se contente de le mettre dans la 
pile a_remplir, qui garde trace des etats incomplets, dont il faudra determiner les 
transitions plus tard. 

Pour terminer la construction de l'automate, il faut depiler les etats incomplets, 
determiner les transitions sortantes en appelant deplacements et f ermeture_ens, et 
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obtenir les etats de destination des transitions en appelant traduire. Les appels a 
traduire construisent parfois de nouveaux etats ; il faut done repeter ce processus 
jusqu'a ce que la pile a_remplir soit vide. (La terminaison est assuree parce que le 
nombre d'ensembles d'etats possibles est fini : si l'automate initial a n etats, il y a au 
plus 2™ ensembles d'etats differents a considerer.) 

On amorce le processus en appelant traduire sur la fermeture de l'etat initial. 
On obtient ainsi l'etat initial de l'automate deterministe. Comme ses transitions n'ont 
pas ete calculees, la pile a_remplir contient cet etat. Le premier tour de la boucle 
while complete cet etat comme decrit ci-dessus. Les tours suivants completent les 

etats crees en cours de route. Quand la pile est vide, stack pop declenche l'exception 

stack Empty, qui fait sortir de la boucle. L'automate deterministe est alors complet ; 

il n'y a plus qu'a renvoyer son etat initial. 

16.6 Realisation de la commande grep 

Apres cette envolee dans le monde des automates, il est temps de revenir sur Terre et 
de finir l'implementation de la commande grep. La commande grep prend en arguments 
une expression rationnelle et une liste de noms de fichiers, et affiche toutes les lignes des 
fichiers qui sont reconnues par l'expression rationnelle. Si aucun nom de fichier n'est 
fourni, grep lit son entree standard. C'est ce comportement que nous allons maintenant 
programmer. 

Les versions de grep qu'on trouve dans les systemes Unix proposent un certain 
nombre d'options qui modifient le comportement de la commande : inverser la recherche 
(afficher uniquement les lignes qui ne sont pas reconnues), identifier majuscules et 
minuscules, afficher uniquement le nombre de lignes reconnues, etc. Ces options sont 
faciles mais fastidieuses a implementer ; nous les laisserons de cote. 

Commengons par deux fonctions qui appliquent un automate sur chaque ligne d'un 
fichier et affichent les lignes reconnues. 

Fichier grep . ml 

#open "expr" ; ; 
#open "auto" ; ; 
#open "determ" ; ; 

let ligne_trouvee = ref false;; 

let grep_sur_canal auto nom_fich canal = 
try 

while true do 

let ligne = input_line canal in 
if reconnait auto ligne then begin 
ligne_trouvee := true; 
print_string nom_fich; 
print_string" : " ; 
print_endline ligne 
end 
done 

with End_of _f ile -> () ; ; 
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let grep_sur_f ichier auto nom_fich = 
try 

let canal = open_in nom_fich in 

try grep_sur_canal auto nom_fich canal; close_in canal 
with exc -> close_in canal; raise exc 

with sys Sys_error message -> 

prerr_string "Erreur sur le f ichier "; 
prerr_string nom_fich; 
prerr_string " : " ; 
prerr_endline message;; 



La derniere phrase du module grep verifie que la ligne de commande a la 
bonne forme, compile l'expression rationnelle en automate deterministe, et applique 
l'automate obtenu sur les fichiers specifies. 

Fichicr grep .ml 

if sys interactive then () else 

if vect_length sys command_line < 2 then begin 

prerr_endline "Utilisation: grep <motif> <fichiers>"; 
exit 2 
end else begin 
let expr = 

try lire (stream_of _string sys command_line . (1)) 

with Parse_error I Parse_f ailure -> 

prerr_endline "Erreur de syntaxe dans l'expression"; 
exit 2 in 
let auto = 

determinise (expr_vers_automate expr) in 

if vect_length sys command_line >= 3 then 

for i = 2 to vect_length sys command_line - 1 do 

grep_sur_f ichier auto sys command_line . (i) 

done 
else 

grep_sur_canal auto "(entree standard)" std_in; 
exit (if ! ligne_trouvee then 0 else 1) 
end; ; 



16.7 Annexe 

Pour achever le programme grep, il reste a implementer le module ensent qui 
definit le type abstrait des ensembles d'entiers. En voici une implementation simple, a 
base de listes croissantes d'entiers. 

Fichicr ensent .ml 

type t == int list;; 
let vide = [] ; ; 

let rec appartient n = function 
I [] -> false 
I m: :reste -> 
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if m = n then true else 

if m > n then false else appartient n reste;; 

let rec ajoute n = function 
I [] -> [n] 
I m: : reste as ens -> 

if m = n then ens else 

if m > n then n : : ens else m : : ajoute n reste; ; 



Comme la liste est triee par ordre croissant, on arrete la recherche ou l'insertion des 
qu'on atteint un element plus grand que l'entier a rechercher ou a inserer. L'insertion 
et la recherche sont done en temps moyen n/2 et en temps le pire n, si n est le nombre 
d'elements de l'ensemble. 

16.8 Mise en pratique 

II ne reste plus qu'a compiler tous les modules de la commande grep et a les lier 
entre eux. 

$ camlc -c expr.mli 
$ camlc -c expr.ml 
$ camlc -c auto.mli 
$ camlc -c auto. ml 
$ camlc -c ensent.mli 
$ camlc -c ensent.ml 
$ camlc -c determ.mli 
$ camlc -c determ.ml 
$ camlc -c grep. ml 

$ camlc -o grep expr.zo auto.zo ensent.zo determ.zo grep.zo 

En guise d'exemple, voici comment rechercher tous les mots qui contiennent la lettre 
« p » suivie de la lettre « x » dans un fichier : 

$ camlrun grep ' [pP] [a-z] *x' fichier 

L'execution de cette commande sur le texte de ce chapitre detecte quatre occurrences 
du mot «postfixe» et deux de «prix». 

16.9 Pour aller plus loin 

La rapidite d'execution de la commande grep implemented dans ce chapitre 
pourrait etre fortement amelioree. II y a deux sources importantes d'inefficacite : la 
determinisation de l'automate, d'une part, et d'autre part l'execution de l'automate 
sur les lignes des fichier s. 

La determinisation est un processus essentiellement couteux : dans le pire des cas, 
la taille de l'automate produit est exponentielle en la taille de l'expression rationnelle. 
Dans les cas courants, on Paccelere considerablement en groupant les transitions sortant 
d'un etat et aboutissant sur le meme etat. Par exemple, les transitions que nous avons 
etiquetees «tout sauf t», «tout sauf e» dans les exemples representent en fait 255 
transitions du meme etat vers le meme etat. La fonction de determinisation presentee 
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ci-dessus ne tient pas compte de ce genre de partage, et done a tendance a refaire 255 fois 
les memes calculs dans des situations de ce type. L'introduction, dans les automates 
non deterministes, de transitions de la forme «tout sauf ...» permet d'eviter cette 
source d'inemcacite, au prix de nombreuses complications dans le programme. 

Pour ce qui est de l'execution de l'automate deterministe, le probleme n'est pas 
d'ordre algorithmique, mais provient du systeme Caml Light lui-meme : il faut executer 
quelque chose de tres simple (une boucle, essentiellement) sur un grand volume de 
donnees ; a ce petit jeu, Caml Light se revele nettement plus lent que des compilateurs 
traditionnels (Caml Light produit du code pour une machine virtuelle, code qui est en- 
suite interprets, alors que les compilateurs traditionnels produisent du code directement 
executable par la machine). En ce cas, on gagne beaucoup a utiliser un compilateur 
Caml produisant du code machine optimise, tel que le compilateur Objective Caml. 

Bibliographie 

Pour une bonne presentation des automates vus sous un angle pratique, on se re- 
portera au chapitre 3 de Compilateurs : principes, techniques et outils, de Aho, Sethi 
et Unman (InterEditions). Pour les lecteurs que les mathematiques n'effraient pas, sig- 
nalons que les automates ont beaucoup ete etudies dans le cadre des langages formels, 
une des branches les plus anciennes de l'informatique theorique. Le livre de Aho et 
Ullman, Theory of parsing, translation and compiling: 1: parsing (Addison- Wesley), 
en donne une bonne vue d'ensemble. 
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Execution d'un langage 
fonctionnel 



Quand Caml se regarde le nombril, ou commence 
d tenir ses lacets de chaussures. 



ORTS DE l'experience acquise avec l'implementation du mini-Pascal (chapitre 15), 
I nous entamons ici la description et l'implementation d'un langage fonctionnel 
M. simplifie, qui est en realite un sous-ensemble de Caml et que nous nommerons 
mini-Caml. Comme d'habitude, nous essaierons de ne pas eluder les dimcultes : mini- 
Caml presente toutes les particularites essentielles de Caml (pleine fonctionnalite, 
filtrage, polymorphisme). Cette etude nous donnera egalement l'occasion d'eclaircir 
un certain nombre de points delicats du langage Caml lui-meme, aussi bien dans le 
domaine de l'execution des programmes que dans celui de la synthese des types. Ces 
points delicats se manifestent rarement lorsqu'on programme en Caml (nous ne les 
avons pas encore rencontres dans ce livre), mais apparaissent nettement lorsqu'on 
implemente Caml. 

Dans ce chapitre, nous commengons notre etude par la realisation d'un interpreteur 
mini-Caml non type. Le prochain chapitre aborde la synthese et la verification statique 
des types. 



17.1 Le langage mini-Caml 

Comme d'habitude, definissons d'abord la syntaxe abstraite du langage mini-Caml 
que nous etudions. Comme on le voit ci-dessous, nous n'avons conserve que les con- 
structions essentielles de Caml : Faeces a un identificateur, la definition de fonctions 
par filtrage, F application de fonctions et la liaison let, recursive ou non. S'y ajoutent 
deux types de base, les entiers et les booleens, et deux structures de donnees, les paires 
et les listes. 

Fichicr syntaxe .mli 

type expression = 

I Variable of string 

I Fonction of (motif * expression) list 
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I Application of expression * expression 

I Let of definition * expression 

I Booleen of bool 

I Nombre of int 

I Paire of expression * expression 

I Nil 

I Cons of expression * expression 

and motif = 

I Motif _variable of string 

I Motif _booleen of bool 

I Motif _nombre of int 

I Motif_paire of motif * motif 

I Motif_nil 

I Motif_cons of motif * motif 

and definition = 
{ recursive: bool; 
nom: string; 
expr: expression };; 

La pauvrete apparente de ce langage est compensee par le fait que de nombreuses 
constructions de Caml sont derivees des constructions de mini-Caml. Par exem- 
ple, la construction match e with p\ — > e± . . . n'est autre qu'une application 
de fonction (function p\ — ► ei . . .)(e). De meme, la construction conditionnelle 
if cond then e± else e<i se ramene a match cond with true — > e\ j false — > ei- 
D'autre part, toutes les operations primitives (operations arithmetiques par exemple) 
se presentent sous la forme d'identificateurs predefinis. 

Une phrase mini-Caml est soit une expression, soit une definition. Contrairement a 
Caml, nous n'avons pas de declarations de types. 

Fichier syntaxe .mli 

type phrase = 

I Expression of expression 

I Definition of definition;; 

value lire_phrase : char stream -> phrase;; 

L'implementation du module syntaxe est tout entiere consacree a la fonction d'analyse 
syntaxique lire_phrase. L'analyseur syntaxique de mini-Caml utilise exactement les 
memes techniques que celui pour mini-Pascal. Nous ne detaillerons done pas la fonction 
lire_phrase ici, la repoussant sans vergogne a la fin de ce chapitre pour passer plus 
vite aux choses serieuses. 

17.2 L'evaluateur 

Representation des valeurs 

Notre evaluateur manipule des donnees tres simples du type valeur. Ce sont les 
valeurs utilisees par le langage, aussi bien que les resultats des evaluations. Les valeurs 
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sont de cinq especes possibles : des nombres entiers, des booleens, des fonctions, des 
paires ou des cellules de listes. Les fonctions se divisent en deux classes : les operations 
primitives, qui operent directement sur le type valeur, et les fonctions de l'utilisateur. 
Les fonctions de l'utilisateur sont representees par des fermetures. Une fermeture est 
une paire dont la premiere composante est la definition de la fonction (c'est-a-dire le 
filtrage qui calcule le resultat de la fonction a partir de son argument) et la seconde 
composante est l'environnement qui prevalait quand on a definit la fonction. Nous allons 
voir pourquoi ce codage complexe des valeurs fonctionnelles est adequat a la definition 
et a Pexecution des fonctions Caml. 

Fichier eval.mli 

#open "syntaxe";; 
type valeur = 

I Val_nombre of int 

I Val_booleenne of bool 

I Val_paire of valeur * valeur 

I Val_nil 

I Val_cons of valeur * valeur 

I Val_f ermeture of fermeture 

I Val_primitive of valeur -> valeur 

and fermeture = 

{ definition: (motif * expression) list; 
mutable environnement : environnement } 

and environnement == (string * valeur) list;; 

value evalue: environnement -> expression -> valeur 

and evalue_def inition: environnement -> definition -> environnement 
and imprime_valeur : valeur -> unit ; ; 

exception Erreur of string; ; 



La regie de portee statique 

Nous devons done expliquer pourquoi nous codons les fonctions par des fermetures 
qui comportent l'environnement de definition de ces fonctions. Ceci est rendu necessaire 
par la regie de « portee » des identificateurs en Caml. En effet, tout identificateur est 
lie a la valeur qui l'a defini. Cette liaison ne depend pas du temps, mais seulement 
de l'endroit dans le programme ou l'identificateur est defini (e'est pourquoi on parle 
aussi de portee textuelle ou lexicale). Donnons un exemple de ce comportement : nous 
definissons la constante taille, puis la fonction ajoute_taille qui fait reference au 
nom taille, puis nous redefinissons le nom taille avec une autre valeur. 

# let taille = 1; ; 
taille : int = 1 

# let ajoute_taille x = x + taille;; 
ajoute_taille : int -> int = <fun> 

# let taille = 2; ; 
taille : int = 2 
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Le probleme est de savoir si la redefinition de taille a modifie la fonction 
ajoute_taille, ou bien si cette fonction ajoute toujours 1 a son argument. 

# ajoute_taille 0;; 

- : int = 1 

Caml suit bien la regie de portee statique : l'identificateur taille du corps de la fonction 
fait reference a celui qui etait defini au moment de la creation de la fonction, pas a 
celui qui est defini quand on appelle la fonction. En portee dynamique, la valeur des 
identificateurs correspond a leur derniere definition au cours des calculs. La valeur de 
l'identificateur taille aurait done ete modifiee meme dans le corps de la fonction 
ajoute_taille. Notre evaluateur simule parfaitement ce comportement statique, en 
attachant au code des fonctions leur environnement de definition. 

Les lecteurs attentifs auront sans doute remarque qu'une certaine forme de portee 
dynamique peut etre simulee en Caml, a l'aide de references. 

# let taille = ref 1;; 
taille : int ref = ref 1 

# let ajoute_taille x = x + ! taille;; 
ajoute_taille : int -> int = <fun> 

# taille := 2; ; 

- : unit = () 

# ajoute_taille 0;; 

- : int = 2 

La liaison de taille a la reference est traitee en portee statique, mais le contenu de 
la reference est modifiable apres la liaison. Cette astuce va meme jusqu'a la definition 
de fonctions recursives sans utiliser let rec, a la maniere des langages avec portee 
dynamique. 

# let fact = 

let rien = ref (function x -> x) in 

let f x = if x = 0 then 1 else x * !rien (x - 1) in rien := f ; 

f;; 

fact : int -> int = <fun> 

# fact 10; ; 

- : int = 3628800 

Le code de l'evaluateur 

La premiere partie de revaluation est consacree a l'implementation du filtrage. Cette 
operation prend une valeur et un motif, et determine si la valeur est de la forme indiquee 
par le motif. Si la reponse est non, elle declenche l'exception Echec_f iltrage. Si la 
reponse est oui, elle renvoie un ensemble de liaisons d'identificateurs (les variables du 
motif) a des valeurs (les morceaux correspondants de la valeur d'entree), representees 
par une liste de paires (identificateur, valeur). 

Fichier eval . ml 

#open "syntaxe" ; ; 

exception Echec_f iltrage ; ; 
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let rec filtrage valeur motif = 
match (valeur, motif) with 
I (val, Motif _variable id) -> [id, val] 
I (Val_booleenne bl, Motif _booleen b2) -> 

if bl = b2 then [] else raise Echec_f iltrage 
I (Val_nombre il, Motif _nombre i2) -> 

if il = i2 then [] else raise Echec_f iltrage 
I (Val_paire(vl , v2) , Motif _paire (ml , m2)) -> 

filtrage vl ml 0 filtrage v2 m2 
I (Val_nil, Motif _nil) -> [] 
I (Val_cons(vl , v2) , Motif _cons (ml , m2)) -> 

filtrage vl ml 0 filtrage v2 m2 
I (_, _) -> raise Echec_f iltrage ; ; 



La fonction devaluation d'une expression est remarquablement concise. Detaillons- 
en les principales clauses. L'environnement devaluation est represente par une liste 
d'association entre les identificateurs et leurs valeurs. Ceci explique la clause des 
variables. Pour les fonctions on se contente de creer une fermeture qui emmaga- 
sine l'environnement courant (env) au moment de revaluation de la fonction. Pour 
Papplication d'une fonction a son argument, on evalue fonction et argument, et Ton 
teste si la fonction renvoyee est bien une fonction, c'est-a-dire soit une fermeture, soit 
une primitive. Dans le cas d'une primitive, on applique directement la valeur fonc- 
tionnelle implementant la primitive. Dans le cas d'une fonction, on essaye de filtrer la 
valeur de l'argument par les motifs des differents cas de la fonction. Le premier filtrage 
qui reussit provoque revaluation de l'expression associee, dans un environnement qui 
est l'environnement contenu dans la fermeture, enrichi par les liaisons effectuees lors 
du filtrage. 

Fichier eval . ml 

let rec evalue env expr = 
match expr with 
I Variable id -> 
begin try 

assoc id env 

with Not_found -> raise (Erreur (id " " est inconnu")) 
end 

I Fonction(liste_de_cas) -> 

Val_f ermeture {definition = liste_de_cas ; environnement = env} 
I Appli cat ion (fonction, argument) -> 

let val_fonction = evalue env fonction in 
let val_argument = evalue env argument in 
begin match val_fonction with 
I Val_primitive f onction_primitive -> 

f onction_primitive val_argument 
I Val_f ermeture fermeture -> 

evalue_application fermeture .environnement 

fermeture .definition val_argument 

I _ -> 

raise(Erreur "application d'une valeur non f onctionnelle") 

end 
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I Let (definition, corps) -> 

evalue (evalue_def inition env definition) corps 

I Booleen b -> Val_booleenne b 

I Nombre n -> Val_nombre n 

I Paire(el, e2) -> Val_paire (evalue env el, evalue env e2) 

I Nil -> Val_nil 

I Cons (el, e2) -> Val_cons (evalue env el, evalue env e2) 

and evalue_application env liste_de_cas argument = 
match liste_de_cas with 

I [] -> raise(Erreur "echec du filtrage") 
I (motif, expr) :: autres_cas -> 
try 

let env_etendu = filtrage argument motif @ env in 
evalue env_etendu expr 
with Echec_f iltrage -> 

evalue_application env autres_cas argument 

and evalue_def inition env_courant def = 
match def . recursive with 

I false -> (def.nom, evalue env_courant def. expr) :: env_courant 
I true -> 

match def .expr with 
I Fonction liste_de_cas -> 
let fermeture = 

{ definition = liste_de_cas ; environnement = [] } in 
let env_etendu = 

(def.nom, Val_f ermeture fermeture) :: env_courant in 
fermeture . environnement <- env_etendu; 
env_etendu 

I _ -> raise(Erreur "let rec non fonctionnel");; 



II reste un point delicat a expliquer : la definition recursive. Nous nous sommes 
limites aux cas ou l'expression definissante est une fonction, ce qui garantit que la 
definition recursive a toujours un sens. 

let rec / = function p\ — > e± . . . in . . . 

La valeur que nous associons a / est done une fermeture du corps de la fonction et d'un 
environnement qui est 1' environnement courant devaluation augmente d'une liaison 
pour /. En effet, le corps de la fonction (l'expression e\, par exemple) peut faire reference 
a /, lors d'un appel recursif. L'environnement de la fermeture doit done contenir une 
liaison de / a la valeur de /, e'est-a-dire a la fermeture que nous sommes en train de 
construire. Si nous notons F la fermeture de /, alors l'environnement de cette fermeture 
doit etre (/, F) : : env_courant. II est clair que la fermeture F et l'environnement 
etendu qu'elle comporte sont des objets «circulaires». Pour resumer graphiquement 
ces contraintes : 
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\ 

Fermeture { definition = 

environnement = 



C/,t) 



env_courant 



Pour construire la fermeture F, l'astuce est de commencer par construire une ferme- 
ture dont le champ environnement est initialise a une valeur quelconque, par exemple 
l'environnement vide. On construit ensuite l'environnement etendu avec cette valeur 
provisoire. II suffit alors de modifier physiquement le champ environnement de F pour 
y stocker l'environnement etendu. La modification physique construit le cycle desire. 



Impression des valeurs 

Nous terminons le module eval par une fonction d'impression des valeurs, qui ne 
presente aucune difficulte. 

Ficfiier eval . ml 

let rec imprime_valeur = function 
I Val_nombre n -> print_int n 
I Val_booleenne false -> print_string "false" 
I Val_booleenne true -> print_string "true" 
I Val_paire(vl, v2) -> 

print_string "("; imprime_ valeur vl; 

print_string ", "; imprime_ valeur v2; 

print_string ")" 
I Val_nil -> 

print_string " [] " 
I Val_cons(vl, v2) -> 

imprime_valeur vl; 

print_string " : : " ; imprime_ valeur v2 
I Val_f ermeture _ I Val_primitive _ -> 
print_string "<fun>";; 



17.3 La boucle d'interaction 

Nous allons maintenant mettre autour de l'evaluateur une boucle d'interaction, sur 
le modele de la boucle d'interaction de Caml. Nous commengons par construire un 
environnement initial devaluation comprenant un certain nombre de fonctions de base 
sur les entiers et les booleens (arithmetique, comparaisons, etc.). Pour ce faire, il faut 
«habiller» les fonctions Caml correspondantes pour qu'elles operent non plus sur les 
types de donnees Caml, mais sur leurs representations dans le type valeur. 

Fichierinterprete.ini 

#open "syntaxe";; 
#open "eval" ; ; 

let code_nombre n = Val_nombre n 
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and decode_nombre = function 
I Val_nombre n -> n 

I _ -> raise (Erreur "entier attendu") 
and code_booleen b = Val_booleenne b 
and decode_booleen = function 

I Val_booleenne b -> b 

I _ -> raise (Erreur "booleen attendu");; 
(* Pour transformer une fonction Caml en valeur f onctionnelle *) 

let priml codeur calcul decodeur = 

Val_primitive (function val -> codeur (calcul (decodeur val))) 
and prim2 codeur calcul decodeurl decodeur2 = 

Val_primitive (function 

I Val_paire(vl, v2) -> 

codeur (calcul (decodeurl vl) (decodeur2 v2)) 

I _ -> raise(Erreur "paire attendue") ) ; ; 

(* L'environnement initial *) 
let env_initial = 
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"not", priml code_booleen (prefix not) decode_booleen; 
"read_int", priml code_nombre 

(fun x -> read_int ()) decode_nombre ; 
"write_int", priml code_nombre 

(fun x -> print_int x; print_newline () ; 0) 
decode_nombre] ; ; 



L'evaluation d'une phrase consiste a calculer sa valeur et a 1'afficher. Si la phrase 
est une definition, il faut de plus enrichir l'environnement global par la nouvelle liaison. 

Fichier interpret e .ml 

let boucle () = 

let env_global = ref env_initial in 

let flux_d' entree = stream_of _channel std_in in 

while true do 

print_string "# "; flush std_out; 
try 

match lire_phrase flux_d' entree with 
I Expression expr -> 

let res = evalue ! env_global expr in 

print_string "- = "; imprime_valeur res; 
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print_newline () 
I Definition def -> 

let nouvel_env = evalue_def inition !env_global def in 
begin match nouvel_env with 
I (nom, val) : : _ -> 

print_string nom; print_string " = "; 
imprime_valeur val; print_newline () 

end; 

env_global := nouvel_env 

with 

I Parse_error I Parse_f ailure -> 

print_string "Erreur de syntaxe"; print_newline () 
I Erreur msg -> 

print_string "Erreur a l'evaluation: "; print_string msg; 

print_newline () 

done ; ; 

if sys interactive then () else boucle () ; ; 



17.4 Mise en ceuvre 

L'interprete mini-Caml se compile comme suit : 



$ 


camlc 


-c 


syntaxe .mli 


$ 


camlc 


-c 


eval .mli 


$ 


camlc 


-c 


eval .ml 


$ 


camlc 


-c 


lexuniv .mli 


$ 


camlc 


-c 


lexuniv.ml 


$ 


camlc 


-c 


syntaxe .ml 


$ 


camlc 


-c 


interprete .ml 


$ 


camlc 


-o 


interprete lexuniv. zo syntaxe. zo eval.zo interprete. zo 



Apres lancement par camlrun interprete ou interprete boucle (), il ne reste 

plus qu'a essayer quelques-unes de nos fonctions preferees. 

# let rec fib = function n -> 

match n < 2 with true -> 1 I false -> fib(n - 1) + fib(n - 2) ; ; 
fib = <fun> 

# fib 10; ; 

- = 89 

# let map = function f -> 

let rec maprec = function []->[] I x : : 1 -> f x : : maprec 1 
in maprec ; ; 
map = <fun> 

# map fib (1 : : 2 : : 3 : : 4 : : 5 : : 6 : : [] ) ; ; 

- = 1::2::3::5::8::13::[] 
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17.5 Pour aller plus loin 

Les modes devaluation 

Vous aurez sans doute remarque que notre evaluateur calcule les arguments d'une 
fonction avant de l'appeler. Cela parait naturel, mais en fait ce travail s'avere inutile 
dans le cas ou la fonction n'utilise pas son argument. Pire, il peut se produire que le 
calcul de l'argument ne termine pas, alors meme qu'il n'est pas utilise pour obtenir le 
resultat final. II arrive done que notre evaluateur ne parvienne pas a calculer un resultat 
pourtant raisonnable. La methode suivie par notre evaluateur est appelee Vappel par 
valeur, puisqu'on appelle les fonctions apres avoir calcule la valeur de tous leurs ar- 
guments. La strategic qui consiste a attendre que le besoin de calculer l'argument se 
fasse expressement sentir dans le corps de la fonction s'appelle Vappel par nom. Son 
inconvenient majeur est qu'un meme argument est calcule plusieurs fois, s'il est utilise 
plusieurs fois dans le corps de la fonction. C'est pourquoi il existe un troisieme mode 
d'appel des fonctions, Vappel par necessite, qui consiste, comme dans l'appel par nom, 
a attendre que la valeur d'argument soit absolument necessaire avant de le calculer, 
mais a mettre en memoire cette valeur calculee, pour la reutiliser telle quelle a chaque 
fois qu'on en a besoin. Des langages fonctionnels comme Haskell fonctionnent selon 
ce mode de passage des parametres ; on les appelle les langages paresseux. Leur avan- 
tage est evidemment qu'ils peuvent terminer des calculs quand un langage en appel 
par valeur bouclerait ou echouerait. D'autre part, ce type de langages permet la ma- 
nipulation aisee de structures de donnees potentiellement infinies (on ne calcule, de 
la structure de donnees, que la partie strictement necessaire a l'obtention du resultat 
final). Un ecueil majeur de ces langages est que les effets y sont prohibes : il est en effet 
tres difficile de predire quand le calcul d'un argument va se declencher, done impos- 
sible de savoir quand vont avoir lieu les effets de bord qu'il comporte eventuellement. 
Des mecanismes speciaux comme par exemple les monades sont done necessaires pour 
traiter les entrees-sorties et les exceptions. 

L'implementation d'un evaluateur pour ce type de langage repose sur la creation 
de fermetures (plus techniquement appelees « suspensions » ou «glagons») pour les 
arguments des fonctions : on enferme ainsi le code qui permet de calculer la valeur avec 
son environnement de definition ; quand on doit evaluer une variable, on lance alors 
Pexecution du code de sa fermeture dans l'environnement qui l'accompagne (degel du 
glacon). Dans le cas de l'appel par necessite, il faut en fait creer une reference qui est 
mise a jour en fin de degel. Les operations primitives testent alors si leurs arguments 
sont deja calcules ou non. S'ils ne le sont pas, elles les degelent. 

Tout comme le langage Caml, notre evaluateur fonctionne done en appel par valeur, 
mais sa transformation en evaluateur par nom n'est pas tres difficile. 

Les definitions recursives 

Vous aurez remarque que nous limitons la definition de valeurs recursives aux fonc- 
tions immediates (e'est-a-dire directement introduites par le mot-cle function). Ce 
point est raisonnable mais discutable, car on peut donner un sens a des definitions 
de valeurs non fonctionnelles. L 'ecueil est de pretendre donner aussi un sens a des 
definitions qui n'en ont pas, par exemple let rec x = x + 1. 



Pour aller plus loin 



335 



En fait, une definition recursive se ramene toujours a la recherche du point fixe 
d'une certaine fonction. En effet, toute definition recursive est de la forme let rec x 
= phi(x), ce qui signifie done que la valeur de x est un point fixe de la fonction phi. 
Par exemple, pour la definition de la fonction factorielle : let rec fact = function 
x -> if x = 0 then 1 else x * fact(x - 1), la fonction phi correspondante est 
function f -> function x -> if x = 0 then 1 else x * f (x - 1). En effet, 
phi (fact) vaut exactement fact. 

On montre que la definition de fonctions s'implemente correctement dans un langage 
en appel par valeur. En revanche, pour les autres valeurs, la classe des definitions ac- 
ceptables n'est pas tres claire. Certains systemes Caml autorisent la definition recursive 
de listes bouclees (let rec x = 1 : : x). 

Dans le cas des langages paresseux, on montre qu'il est toujours possible de traiter 
une definition recursive par iteration d'une fonction a partir de la valeur « indefini » : 
voyons l'idee qui sous-tend ce mecanisme avec la definition de la fonction factorielle. On 
construit d'abord la fonction representant l'indefini et la fonction phi dont on cherche 
un point fixe : 

# let indefini x = failwith "indefini";; 
indefini : ' a -> 'b = <fun> 

# let phi f = function x -> if x = 0 then 1 else x * f (x - 1) ; ; 
phi : Cint -> int) -> int -> int = <fun> 

Puis on definit les iterations successives de phi en partant de la valeur indefinie : 

# let factO = phi indefini;; 
factO : int -> int = <fun> 

# let factl = phi factO;; 
factl : int -> int = <fun> 

# let fact2 = phi factl;; 
fact2 : int -> int = <fun> 

# let fact3 = phi fact2;; 
fact3 : int -> int = <fun> 

Les fonctions factO, factl, fact2 et fact3 sont des approximations successives de la 
fonction factorielle, de plus en plus definies (e'est-a-dire definies sur un nombre croissant 
d'entiers) : 



Argument 


factO 


factl 


fact2 


f act3 


0 


1 


1 


1 


1 


1 


indefini 


1 


1 


1 


2 


indefini 


indefini 


2 


2 


3 


indefini 


indefini 


indefini 


6 



Dans un langage paresseux, les definitions recursives ainsi traitees par iterations suc- 
cessives sont correctes : si le calcul s'arrete, alors la valeur calculee sera un point fixe 
de 1' equation recursive. Au pire, le calcul du point fixe ne termine pas (cas de let rec 
x = x + 1) ou bien echoue, ce qui se traduit par un resultat indefini (cas de let rec 
x = x). 

Les langages paresseux ont done de belles proprietes semantiques, mais quelques 
inconvenients pratiques dans la programmation de tous les jours. lis ont de plus une 
regrettable tendance a l'inefficacite : les arguments de fonctions sont la plupart du 
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temps necessaires a la fonction, on perd ainsi beaucoup de temps de calcul a creer des 
suspensions qu'on execute presque aussitot. Dans les compilateurs, cela est tempere par 
des analyses de «necessite», c'est-a-dire de detection des endroits ou Ton peut compiler 
du code qui evalue directement un argument qui sera de toutes fagons necessaire dans 
la suite du code. Ces analyses sont complexes et tres difficiles en presence de fonctions 
d'ordre superieur. 

17.6 Annexe 

Comme promis, nous donnons ici le code de l'analyseur syntaxique pour mini-Caml. 
La plus grande partie du code est une adaptation directe de l'analyseur syntaxique que 
nous avions ecrit pour le langage mini-Pascal (chapitre 15). 

Fichier syntaxe .ml 

#open "lexuniv";; 

let est_un_operateur operateurs = function 
I MC op -> mem op operateurs 
I _ -> false; ; 

let lire_operateur operateurs = function 

I [< (stream_check (est_un_operateur operateurs)) (MC op) >] -> op;; 

let lire_operation lire_base operateurs = 
let rec lire_reste el = function 
I [< (lire_operateur operateurs) op; 
lire_base e2; 

(lire_reste (Application (Variable op, Paire(el, e2)))) e >] 
-> e 

I [< >] -> el in 

function [< lire_base el; (lire_reste el) e >] -> e;; 

let lire_infixe lire_base infixe construire_syntaxe flux = 
let rec lire_debut = function 

I [< lire_base el; (lire_reste el) e2 >] -> e2 
and lire_reste el = function 

I [< (stream_check (function MC op -> op = infixe I _ -> false)) _; 

lire_debut e2 >] -> construire_syntaxe el e2 
I [< >] -> el in 
lire_debut flux; ; 

let rec phrase = function 

I [< definition d; (fin_de_def inition d) p; 'MC ";;" >] -> p 

I [< expression e; 'MC ";;" >] -> Expression e 
and fin_de_def inition d = function 

I [< 'MC "in"; expression e >] -> Expression (Let(d, e)) 

I [< >] -> Definition d 

and expression = function 

I [< definition d; 'MC "in"; expression e >] -> Let(d, e) 
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I [< 'MC "function"; liste_de_cas liste >] -> 
Fonction(liste) 

I [< 'MC "match"; expression e; 'MC "with"; 
liste_de_cas liste >] -> 
Application (Fonction(liste) , e) 

I [< expr5 e >] -> e 
and expr_simple = function 

I [< 'Entier i >] -> Nombre i 

I [< 'MC "true" >] -> Booleen true 

I [< 'MC "false" >] -> Booleen false 

I [< 'Ident id >] -> Variable id 

I [< 'MC " ["; 'MC "] " >] -> Nil 

I [< 'MC "("; expression e; 'MC ")">]-> e 
and exprO = function 

I [< expr_simple es; (suite_d' applications es) e >] -> e 
and suite_d' applications f = function 

I [< expr_simple arg; 

(suite_d' applications (Application^ , arg))) e >] -> e 

I [<>] -> f 
and exprl flux = 

lire_operation exprO ["*"; "/"] flux 
and expr2 flux = 

lire_operation exprl ["+"; "-"] flux 
and expr3 flux = 

lire_operation expr2 ["="; "<>"; "<"; ">"; "<="; ">="] flux 
and expr4 flux = 

lire_infixe expr3 (fun el e2 -> Cons (el, e2)) flux 

and expr5 flux = 

lire_infixe expr4 "," (fun el e2 -> Paire(el, e2)) flux 

and definition = function 

I [< 'MC "let"; recursive r; 'Ident nom; 'MC "="; expression e >] -> 
{recursive = r; nom = nom; expr = e} 
and recursive = function 

I [< 'MC "rec" >] -> true 

I [< >] -> false 

and liste_de_cas = function 

I [< motif m; 'MC "->"; expression e; autres_cas reste >] -> 
(m, e) : : reste 
and autres_cas = function 

I [< 'MC "I"; motif m; 'MC "->"; expression e; 

autres_cas reste >] -> (m, e) : : reste 
I [< >] -> [] 

and motif_simple = function 

I [< 'Ident id >] -> Motif .variable id 
I [< 'Entier n >] -> Motif_nombre n 
I [< 'MC "true" >] -> Motif _booleen true 
I [< 'MC "false" >] -> Motif _booleen false 
I [< 'MC "["; 'MC "]" >] -> Motif _nil 
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I [< 'MC "("; motif e; 'MC ")" >] -> e 
and motif 1 flux = 

lire_infixe motif _simple (fun ml m2 -> Motif _cons (ml ,m2) ) flux 

and motif flux = 

lire_infixe motif 1 "," (fun ml m2 -> Motif _paire (ml ,m2) ) flux;; 

let analyseur_lexical = construire_analyseur 

["function"; "let"; "rec"; "in"; "match"; "with"; "->"; ";;"; 
"true"; "false"; "["; "]"; "("; ")"; " : : " ; "I"; ","; 

11*11 . it /ii . ii_ii . ii i n . ii_m . n^s" • ii ^ ii . ik it . m^_ii . n*v— n . it . . M"i . . 

x i / i i T i _ i v -* ; s > ■* > — ! i • • J , , 

let lire_phrase f = phrase (analyseur_lexical f ) ; ; 
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These : le typage est une aide importante pour le programmeur. 
Antithe.se: mettre les types a la main dans les programmes, c'est lourd. 
Synthese : utilisons la synthase automatique de types ! 

de types pour ce langage. Vous apprendrez ainsi comment fonctionne le 
a A \ controleur de type de Caml. Cette connaissance vous permettra de mieux 
comprendre les erreurs de typage qu'il vous signale, particulierement sur les points 
delicats de polymorphisme et de circularite dans les types. Par-dessus tout, la synthese 
de types est un joli probleme de manipulations symboliques de donnees et de resolution 
de contraintes. 



18.1 Principes de la synthese de types 

Les equations entre types 

La synthese de types est analogue a la resolution d'equations mathematiques. On 
aura done la notion de variables, de constantes, transposee dans le domaine des types : 
variables de type, types constants. A la difference des mathematiques ou le probleme 
est de resoudre un ensemble d'equations donnees a l'avance, le synthetiseur de type doit 
decouvrir dans le programme qui lui est soumis l'ensemble des equations a resoudre. Ces 
equations sont cependant tres naturelles. Par exemple, si Ton doit typer Papplication 
f (x) , on produira les equations : 

type de f = t± — ► ti 
type de x = h 
type de f (x) = £2 

Ici les inconnues sont des types t\ et t2- Ces nouvelles variables seront automatique- 
ment introduites par le synthetiseur de type. On comprend que si chaque application 
de fonction introduit deux nouvelles inconnues et trois equations supplementaires, le 
probleme mene vite a un tres grand nombre d'inconnues et d'equations. Cependant, 
l'algorithme de synthese de type aura le souci de ne pas introduire de nouvelles in- 
connues inutilement. Par exemple, si Ton sait deja que f a pour type ty\ — > ty2, on 
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se contentera d'utiliser les types ty\ et tyi qui interviennent deja dans le probleme. 
De plus, Palgorithme n'attend pas d'avoir entierement construit le systeme d'equations 
pour commencer a le resoudre : il effectue simultanement l'introduction des equations 
et leur resolution. 

Polymorphisme et schemas de types 

Comme en mathematiques, il arrivera que l'ensemble des equations n'ait pas une so- 
lution unique, mais qu'il y ait au contraire une infinite de solutions. C'est generalement 
le cas en mathematiques lorsqu'il y a plus d'inconnues que d'equations. Considerez par 
exemple le systeme d'une equation a deux inconnues x et y 

x + y = 1. 

II possede un degre de liberte : si l'on fixe l'une des inconnues l'autre est calculable 
instantanement. Ce meme phenomene se rencontre dans les systemes d'equations entre 
types. Soit par exemple le systeme : 

t\ = int 

t2 = h —> t\ 

qui serait engendre par la phrase let f x = 1, ou £2 est le type de f , t\ celui de 1 et 
ts celui de x. Par remplacement de t±, nous en deduisons immediatement 

t\ = int 

h = h —> int 

II est impossible d'aller plus loin dans les remplacements et pourtant le systeme possede 
toujours un degre de liberte: le type £3 peut etre fixe arbitrairement. Dans le monde 
des types, on fera alors intervenir le polymorphisme, en disant que la solution pour 
£2 au systeme d'equations est un schema de type, avec pour parametre t%. Ce schema 
de type n'est autre qu'un type de la forme £3 — > int valable pour tout les types 
£3. C'est ce que l'imprimeur des types de Caml ecrirait J a -> int et qui signifie 
pour tout type 'a, 'a — > int. 

# let f x = 1; ; 

f : 'a -> int = <fun> 

Les types polymorphes sont done utilises pour resumer toutes les solutions possibles a 
un systeme d'equations entre types qui n'a pas assez de contraintes pour etre resolu 
completement par des types de base. Les variables de types qui deviennent ainsi des 
parametres du schema de type sont celles qui ne regoivent jamais de valeur et qui ne 
sont done soumises a aucune contrainte dans le programme. 

Methode de resolution 

Pour resoudre les systemes d'equations entre types, on utilise en premiere approx- 
imation le mecanisme classique de remplacement des inconnues dont on connait deja 
la valeur. C'est ce que nous venons de faire dans Pexemple precedent en remplagant ti 
par la valeur connue int. En fait, le mecanisme de resolution est plus general: c'est 
une methode de propagation de contraintes d'egalite connue sous le nom de mecanisme 
d' unification. Nous le verrons en detail par la suite. 
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Pour modeliser les systemes d'equations nous aurons done besoin de variables (de 
type) pour les inconnues du systeme, de types constants pour les constantes du systeme 
et d'operations entre types comme la Heche -> ou le produit *. Nous aurons egalement 
besoin de modeliser les equations elles-memes (le signe =, pourrait-on dire) et done de 
rendre compte du remplacement d'une variable par sa valeur. Ce remplacement sera 
completement automatique car nous utiliserons le partage : toutes les occurrences d'une 
inconnue dans les equations du systeme a resoudre seront representees physiquement 
par le meme objet en memoire. Remplacer partout l'inconnue par une valeur reviendra 
simplement a modifier le contenu de l'objet qui represente l'inconnue en y deposant la 
valeur. Pratiquement, nos variables auront done deux statuts possibles : elles seront soit 
des inconnues (n'ayant done jamais regu de valeur), soit des variables connues ayant 
done une valeur associee. Par exemple pour le systeme (resolu) 

t\ = int 

t2 = h — > int 

t\ sera une variable connue valant int, t-i une variable connue valant £3 — ► int, tandis 
que £3 sera toujours une variable inconnue. 

Utilisation des schemas de types 

Le polymorphisme est done modelise par des schemas de type. Chaque fois 
qu'on doit utiliser un schema de type, on se contente d'utiliser le type qui decrit 
le schema, avec de nouvelles inconnues. Par exemple, si Ton veut utiliser le schema 
Pour tout type 'a, 'a — > int, on utilisera le type ty — ► int ou ty est une nouvelle 
inconnue. Le schema de type correspond a l'ensemble de tous les types obtenus 
en remplagant 'a par un type quelconque. Une fois 'a remplacee par une nouvelle 
inconnue, cette inconnue pourra recevoir n'importe quelle valeur par la suite. Ainsi, la 
fonction definie par let f x = 1 a pour schema de type Pour tout type 'a, 'a — > int. 
Supposons qu'on ecrive (f 1, f "oui"). On emploiera deux fois le schema de type 
de f , une fois avec une nouvelle variable t\ (t\ — > int), puis avec une autre variable ti 
(t,2 — ► int). Une fois cette substitution de nouvelles inconnues dans le schema de type 
effectuee, les deux occurrences de f sont munies d'un type « comme les autres» (non 
pas un schema) et tout se deroule comme avant. Dans notre exemple, l'application de 
f a 1 engendre l'equation t\ = int, tandis que l'application de f a la chaine "oui" 
engendre l'equation t<i = string. Les inconnues t\ et ti regoivent ainsi une valeur et 
Ton en deduit facilement que le type de l'expression (f 1, f "oui") est int * int. 

# (f 1, f "oui") ; ; 
- : int * int = 1, 1 

Les schemas de types sont done des artifices utilises tres ponctuellement par l'algorithme 
de typage: il ne les manipule pas directement pour resoudre les equations. En effet, 
quand on emploie un schema de type, on remplace systematiquement ses parametres 
par des inconnues «normales». L'algorithme de resolution ne manipulera done que des 
expressions de types comprenant des inconnues, mais non pas des schemas. 
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Introduction des schemas de types 

Nous avons vu que le synthetiseur de types avait deux activites principales : in- 
troduce de nouvelles equations et de nouvelles inconnues et resoudre les systemes 
d'equations qu'il a lui-meme engendres. Quand faut-il se contenter d'engranger des 
equations et a quel moment faut-il decider d'entrer dans la phase de resolution ? Une 
premiere reponse simple serait : il faut resoudre en fin de phrase. C'est exact, mais 
insuffisant. En effet, lorsqu'on ecrit en Caml 

let identite x = x in (identite 1, identite "oui");; 

il faut decider quel est le type de identite avant de typer la partie in. En effet, si (et 
c'est le cas ici) le nom defini par « let » possede un type polymorphe (dont certaines 
variables restent des inconnues), il faut les detecter tout de suite pour pouvoir em- 
ployer ce nom avec differents types dans la partie in. C'est cette resolution partielle de 
l'ensemble des equations de typage qui rend la synthese de type difficile. 

II nous faudra done resoudre les contraintes avant de typer la partie in d'une expres- 
sion let. Plus precisement, il nous faudra seulement decouvrir le type de l'identificateur 
defini, au cas ou ce type comporterait des parametres et serait done polymorphe. Ici 
intervient un phenomene que nous admettrons, nous contentant de le justifier intuitive- 
ment : seules les inconnues introduites pendant le typage de la definition sont suscepti- 
bles de devenir des parametres du type de l'identificateur defini. Les autres inconnues 
(celles qui apparaissaient dans le systeme avant le typage de la definition) ne doivent 
pas devenir des parametres, car elles peuvent intervenir plus tard dans des contraintes 
de types engendrees par le reste du programme. Considerons ce programme : 

function x -> let y = x in x+y 
Juste avant de typer la partie in, les equations de typage sont 

type de x = t\ type de y = t\ 

et il serait incorrect de conclure que y a le type Pour tout 'a, 'a, puisque le reste 
du programme va reveler que t\ = int. En revanche, on demontre que toutes les 
inconnues qui ont ete introduites pendant le typage de la definition et qui sont toujours 
inconnues a la fin du typage de la definition, ne seront pas modifiees plus tard par ajout 
de contraintes supplement aires ; nous sommes done fondes a mettre un « pour tout » 
devant ces inconnues, les transformant en parametres du schema de type. 

Dans le synthetiseur de types, nous aurons done un mecanisme pour retrouver 
facilement toutes les inconnues introduites pendant le typage d'une definition. L'idee 
est simplement d'associer un « age » aux inconnues, refletant la date a laquelle elles ont 
ete introduites. 

Remarquons que les definitions d'identificateurs (par let) sont les seules construc- 
tions qui engendrent des schemas de type: c'est pourquoi on dit souvent qu'en Caml 
seul le let donne du polymorphisme. En particulier, les arguments de fonctions n'ont 
jamais de type polymorphe. Ceci vient directement de la structure des types ma- 
nipules en Caml : il est impossible d'exprimer avec ces types qu'un argument de fonc- 
tion doit etre polymorphe. En effet les schemas de types de Caml sont de la forme 
Pour tous types 'a, f b, . . . Type, ce qui signifie que tous les parametres d'un schema de 
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type sont places en tete de ce schema (quantification prenexe). On ne peut done pas ex- 
primer le type d'une fonction dont l'argument serait polymorphe (done lie a un schema 
de type) comme celui d'une fonction qui exigerait que son argument soit au moins aussi 
polymorphe que Pidentite : (Pour tout type 'a, 'a — a) — > . . . Cela explique pourquoi 
la fonction suivante est mal typee : 

# let phi identite = (identite 1, identite "oui");; 
Entree interactive: 

>let phi identite = (identite 1, identite "oui");; 
> 

Cette expression est de type string, 
mais est utilisee avec le type int. 

On pourrait avoir Pidee d'utiliser une construction let pour creer une variable poly- 
morphe egale a l'argument de la fonction phi : 

# let phi identite = 

let id = identite in 
(id 1, id "oui") ; ; 
Entree interactive: 

> (id 1, id "oui");; 
> 

Cette expression est de type string, 
mais est utilisee avec le type int. 

Cela ne marche pas car le type de id est l'inconnue correspondant au type de 
Pidentificateur identite ; or cette inconnue a ete creee avant la definition de id, 
lors de l'introduction du parametre de la fonction phi. On pourrait encore definir 
localement une fonction de meme semantique que l'argument de phi, en supposant 
que son type, n'etant plus directement celui de identite, deviendrait polymorphe (il 
s'agit ici d'une 77-expansion) . 

# let phi identite = 

let id x = identite x in 
(id 1, id "oui") ; ; 
Entree interactive: 

> (id 1, id "oui");; 
> 

Cette expression est de type string, 
mais est utilisee avec le type int. 

Encore une fois, id reste monomorphe, car le synthetiseur de type n'a pas generalise le 
type de id, qui provenait d'une specialisation du type de identite, l'argument de la 
fonction phi : les inconnues creees pour construire le type de id sont aussi « vieilles » que 
le type dont elles proviennent (dans l'algorithme de typage la vieillesse est hereditaire). 

Repetons cette regie fondamentale du typage de Caml : seul le let donne du poly- 
morphisme. Cela a des consequences etranges pour les fonctions anonymes : elles ne sont 
jamais polymorphes. C'est pourquoi des phrases semantiquement equivalentes sont sus- 
ceptibles d'avoir des types differents. On sait par exemple que (function x -> e2) 
el produit le meme resultat que let x = el in e2. C'est parfaitement vrai en ce qui 
concerne l'execution. C'est faux en ce qui concerne le typage, puisque Pidentificateur 
x n'est jamais polymorphe dans la version avec function, tandis que la version avec 
let l'y autorise. La construction match . . .with met en evidence le meme phenomene 
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puisqu'elle est equivalente a l'application d'une fonction anonyme. Nous comprenons 
mieux maintenant le typage des phrases equivalentes suivantes : 

# (function y -> y y) (function x -> x) ; ; 
Entree interactive : 

> (function y -> y y) (function x -> x) ; ; 
> 

Cette expression est de type 'a -> 'b, 
mais est utilisee avec le type 'a. 

# let y = function x -> x in y y; ; 
- : '_a -> '_a = <fun> 

# match (function x -> x) with y -> y y;; 
Entree interactive: 

>match (function x -> x) with y -> y y;; 
> 

Cette expression est de type 'a -> 'b, 
mais est utilisee avec le type 'a. 

18.2 L'algorithme de synthese de types 

Nous programmons maintenant l'algorithme de synthese de types proprement dit, 
la partie du synthetiseur qui examine le programme et produit les equations entre types 
qui determinent les types de tous les objets du programme. Nous verrons plus tard com- 
ment ces equations sont resolues et comment les expressions de types sont representees 
de maniere a manipuler efficacement les equations entre types. Pour l'instant, nous nous 
contentons de donner l'interface du module types, qui definit deux types de donnees 
abstraits, type_simple et schema_de_types, ainsi que toutes les operations sur ces 
types dont nous avons besoin. 

Fichicr types .ml i 

type type_simple and schema_de_types ; ; 

value type_int: type_simple 
and type_bool: type_simple 

and type_fleche: type_simple -> type_simple -> type_simple 
and type_produit : type_simple -> type_simple -> type_simple 
and type_liste: type_simple -> type_simple ; ; 

value nouvelle_inconnue : unit -> type_simple 
and unifie: type_simple -> type_simple -> unit 
and generalisation: type_simple -> schema_de_types 
and specialisation: schema_de_types -> type_simple 
and schema_trivial : type_simple -> schema_de_types 
and debut_de_def inition: unit -> unit 
and fin_de_def inition: unit -> unit;; 

exception Conflit of type_simple * type_simple 

and Circularite of type_simple * type_simple ; ; 

value imprime_type : type_simple -> unit 
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and imprime_schema: schema_de_types -> unit;; 

Void une breve description des operations du module types. Nous donnerons plus de 
details par la suite, mais pour l'instant il est inutile d'en savoir plus. 

type_int, type_bool les constantes de types int et bool. 

type_f leche t\ ti renvoie la representation du type t\ -> ti- 

type_produit t\ ti renvoie la representation du type t\ * ti- 

type_liste t renvoie la representation du type t list. 

nouvelle_inconnue () cree une nouvelle inconnue de typage. 

unif ie t\ £2 enregistre Pequation t\ = ti et la resout compte tenu des 

equations deja enregistrees. 
Conflit, Circularite exceptions declenchees par unifie lorsqu'on lui donne 

une equation qui n'a pas de solution (comme int = 

bool). 

generalisation t transforme le type t en un schema de types, avec pour 

parametres toutes les inconnues introduites lors du ty- 
page de la precedente definition. 

specialisation s transforme le schema de types s en un type simple, en 

remplagant les parametres du schema par de nouvelles 
inconnues de typage. 

schema_trivial t transforme le type t en un schema de types « trivial », 

c'est-a-dire sans aucun parametre. Sert a melanger dans 
la meme structure d'environnement de «vrais» schemas 
de types, tels que ceux obtenus par la construction let, 
et des types simples, tels que les types des arguments des 
fonctions. 

debut_de_def inition () signale que Ton commence le typage de la partie definition 

d'un let. 

fin_de_def inition () signale que Ton sort du typage de la partie definition d'un 

let et qu'on est sur le point de typer la partie in. 
imprime_type t affiche le type t a l'ecran. 

imprime_ schema s meme chose pour un schema. 

Le module synthese fournit deux fonctions, l'une qui determine le type d'une 
expression, l'autre qui determine le type d'une definition. Les deux fonctions sont 
parametrees par un environnement de typage, qui associe des schemas de types aux 
identificateurs fibres de l'expression. 

Fichier synthese .mli 

#open "syntaxe" ; ; 
#open "types" ; ; 

type environnement == (string * schema_de_types) list;; 

value type_exp: environnement -> expression -> type_simple 
and type_def : environnement -> definition -> environnement;; 



exception Erreur of string; ; 
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L'implementation du module synthese commence par une fonction auxiliaire de typage 
des motifs, qui sert a determiner le type d'une fonction. 

Fichier synthese .ml 

#open "syntaxe" ; ; 
#open "types" ; ; 

let rec type_motif env = function 
I Motif _variable id -> 

let ty = nouvelle_inconnue () in 

(ty, (id, schema_trivial ty) : : env) 
I Motif _booleen b -> 

(type_bool, env) 
I Motif _nombre n -> 

(type_int, env) 
I Motif _paire (ml , m2) -> 

let (tyl, envl) = type_motif env ml in 

let (ty2, env2) = type_motif envl m2 in 

(type_produit tyl ty2, env2) 
I Motif_nil -> 

(type_liste (nouvelle_inconnue 0), env) 
I Motif _cons (ml , m2) -> 

let (tyl, envl) = type_motif env ml in 

let (ty2, env2) = type_motif envl m2 in 

unifie (type_liste tyl) ty2; 

(ty2, env2);; 

La fonction type_motif renvoie deux resultats : d'une part, le type du motif (c'est- 
a-dire le type des valeurs qu'on a le droit de filtrer par ce motif) ; d'autre part, un 
environnement de typage etendu, associant des inconnues de typage aux variables du 
motif. Par exemple, le motif x : : t a pour type t\ list, ou t\ est une inconnue (puisqu'en 
l'absence d'information sur les utilisations de x et de t, on ne sait rien de plus sur le 
type des listes filtrees par ce motif) et on etend 1' environnement avec x de type t\ et 
t de type t\ list. La fonction type_motif ne presente pas de dimcultes majeures. Le 
seul cas qui introduit une contrainte de typage est le cas des motifs «cons» mi :: ?rt2. 
Dans ce cas, il faut imposer que le type de mi soit un type liste dont les elements ont 
pour type celui du motif m\. 

Nous passons maintenant au typage des expressions. Commentons brievement 
les cas interessants. Pour une variable, on va chercher son schema de types dans 
l'environnement de typage et on « specialise » ce schema en remplagant ses parametres 
par de nouvelles inconnues. Pour une fonction, on type successivement chacun des 
cas du filtrage qui la definit. Les types des motifs doivent etre egaux au type de 
l'argument de la fonction. Les types des expressions associees doivent etre egaux au 
type du resultat de la fonction. Pour chaque cas, la partie expression est typee dans 
l'environnement courant etendu par le typage du motif. Pour une application, le type 
de la partie fonction doit etre un type fleche t\ -> t2, avec t\ egal au type de la partie 
argument ; t2 nous donne alors le type du resultat de Papplication. Pour un let, 
l'essentiel du travail est fait par la fonction type_def que nous expliquons juste apres 
le code. Les autres constructions se typent de maniere evidente. 
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Fichicr synthese .ml 

let rec type_exp env = function 
I Variable id -> 

begin try specialisation (assoc id env) 

with Not_found -> raise (Erreur (id " " est inconnu")) 

end 

I Fonction liste_de_cas -> 

let type_argument = nouvelle_inconnue () 
and type_resultat = nouvelle_inconnue () in 
let type_cas (motif, expr) = 

let (type_motif , env_etendu) = type_motif env motif in 

unifie type_motif type_argument ; 

let type_expr = type_exp env_etendu expr in 

unifie type_expr type_resultat in 
do_list type_cas liste_de_cas ; 
type_fleche type_argument type_resultat 
I Appli cat ion (fonction, argument) -> 

let type_f onction = type_exp env fonction in 
let type_argument = type_exp env argument in 
let type_resultat = nouvelle_inconnue () in 

unifie type_f onction (type_f leche type_argument type_resultat) ; 
type_resultat 

I Let (def , corps) -> type_exp (type_def env def) corps 
I Booleen b -> type_bool 
I Nombre n -> type_int 

I Paire(el, e2) -> type_produit (type_exp env el) (type_exp env e2) 
I Nil -> type_liste (nouvelle_inconnue ()) 
I Cons (el, e2) -> 

let type_el = type_exp env el in 

let type_e2 = type_exp env e2 in 

unifie (type_liste type_el) type_e2; 

type_e2 

and type_def env def = 
debut_de_def inition () ; 
let type_expr = 

match def .recursive with 

I false -> type_exp env def. expr 

I true -> 

let type_provisoire = nouvelle_inconnue () in 
let type_expr = 

type_exp ((def.nom, schema_trivial type_provisoire) :: env) 
def . expr in 
unifie type_expr type_provisoire ; 
type_expr in 
fin_de_def inition () ; 

(def.nom, generalisation type_expr) :: env;; 



Le typage des definitions separe nettement le cas recursif du cas ordinaire. Dans 
le cas ordinaire, on type simplement l'expression qui definit Pidentificateur et Ton 
ajoute le schema de types correspondant (obtenu par la fonction generalisation) a 
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l'environnement de typage. Les appels a debut_de_def inition et f in_de_def inition 
qui entourent le typage de l'expression definissante permettent a generalisation de 
detecter les inconnues qui doivent etre generalisees. 

Dans le cas recursif, le mecanisme est analogue, mais on prend la precaution de 
preenregistrer l'identificateur avec une nouvelle inconnue, avant de typer l'expression. 
On unifie ensuite le type preenregistre avec le type effectivement trouve pour 
l'expression definissante. Comme dans le cas des fonctions, l'identificateur defini 
recursivement est preenregistre avec un type inconnu ; il n'est done pas polymorphe 
dans l'expression definissante. Ceci vous explique pourquoi la fonction identite regoit 
ici un type monomorphe : 

# let rec identite x = x 

and message s = print_string (identite s) ; ; 
identite : string -> string = <fun> 
message : string -> unit = <fun> 

18.3 Representation des types 

Passons a l'implementation du module types. Les types simples et les schemas de 
types sont represented comme suit. 

Fichicr types .ml 

type type_simple = 

I Variable of variable_de_type 

I Terme of string * type_simple vect 

said variable_de_type = 
{ mutable niveau: int ; 

mutable valeur: valeur_d'une_variable } 

and valeur_d'une_variable = 
I Inconnue 

I Connue of type_simple ; ; 

type schema_de_types = 

{ parametres: variable_de_type list; 
corps: type_simple };; 

let type_int = Terme ("int", [I 11) 

and type_bool = Terme ("bool" , [I 11) 

and type_fleche tl t2 = Terme("->", [|tl; t2|]) 

and type_produit tl t2 = Terme ("*", [|tl; t2|]) 

and type_liste t = Terme (" list " , [|t|]);; 



Les types simples sont soit des variables de type, soit des types construits. Une variable 
de type possede un niveau de liaison, qui identifie la definition oil la variable a ete 
creee, et une valeur. Cette valeur est soit inconnue (la variable de type est toujours une 
inconnue), soit connue; en ce cas e'est un type simple. Un type construit se compose 
d'un constructeur de type, comme int ou ->, et le cas echeant des arguments du 
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constructeur, sous forme d'un tableau de types simples. Les types de base comme int 
et bool ont zero argument, les types listes ont un argument et les types fleches et 
produits en ont deux. 

Pour fournir Pintuition de la methode de resolution, nous donnons une in- 
terpretation graphique de cette methode. Nous expliquons done graphiquement 
comment les equations de typage sont prises en compte grace a cette representation 
des types et des variables de type. Nous representons les variables de type par des 
boites qui pointent vers une valeur : soit la valeur Inconnue si la variable reste une 
inconnue, soit le type correspondant. Par exemple, dans le schema suivant, t\ est une 
inconnue tandis que ti vaut int. 




Inconnue int 

Nous representons les types construits soit simplement par leur nom quand ils ne 
possedent pas d'arguments, soit par une boite comportant des pointeurs vers les argu- 
ments du type. Voici les representations du type int — > int et du type t\ — > int quand 
t\ est une inconnue : 



int int 




int 



Inconnue 

Modification physique directe des variables de type 

Etudions le deroulement de la resolution du systeme d'equations : 

t\ = int 
t2 = h — > int 
Au depart, nous introduisons les deux inconnues t\ et £2- 




Inconnue Inconnue 

La prise en compte de t\ = int s'effectue par simple modification physique du champ 
valeur de l'inconnue t±, pour le faire pointer vers le type int. 



t\ devient int 




Inconnue Inconnue int Inconnue 
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Le traitement de l'equation <2 = ii — » int est similaire. 



ti devient t\ — > int 



E] 23 



int Inconnue 



E] 



int 



El 



I ti I int 



int 



Comme nous l'avons dit, les types sont partages, ce qui implique que la modification 
d'un type entraine automatiquement la modification de tous les types dans lesquels 
il intervient. Nous allons voir ce mecanisme a l'ceuvre dans la resolution du systeme 
precedent, en supposant simplement que les deux equations sont presentees dans l'ordre 
inverse. On commence done par prendre en compte l'equation ti = t\ — ► int et t\ reste 
une inconnue. 



ti devient t\ — > int 



El 



E 



Inconnue Inconnue 



Inconnue 



[ti\ int 
Inconnue 

Maintenant, la prise en compte de l'equation t\ = int modifie automatiquement le 
type t± — ► int, ce qui a l'effet suivant : 



t\ devient int 



Inconnue E] int 



E 



int 



int 



Inconnue 



int 



Finalement, grace au phenomene de partage, la resolution produit exactement le meme 
resultat quel que soit l'ordre dans lequel on resout les equations. 
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t\ devient int 



Inconnue 



\t\\ int 



int 



\t\\ int 



Inconnue int 
En resume, la resolution du systeme produit toujours l'effet suivant : 



t\ devient int et t2 devient t\ — ► int 



Inconnue Inconnue 



int 



gT| int 



int 



Modification physique des valeurs pointees 

Voici un exemple plus difficile, ou les modifications physiques doivent s'operer sur 
les valeurs pointees par les variables et non sur les variables elles-memes. 

ti = t 2 

h = h 

t2 = int 

La prise en compte de Pequation t\ = t-2 modifie physiquement la variable ti, qui pointe 
maintenant vers £2- Cette derniere reste une inconnue. t\ est done maintenant liee a 
une autre inconnue. 



t\ devient £2 



[*2l 



[tTi 



[*2l 



Inconnue Inconnue Inconnue 



Inconnue Inconnue 



Inconnue 



La prise en compte de Pequation t\ = t% est plus complexe : puisque t\ pointe sur t2, 
done que t\ possede maintenant une valeur, il ne faut surtout pas modifier naivement 
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ti, ce qui aurait pour effet d'oublicr la contrainte t\ = ti en faisant pointer directement 
t\ vers £3. La modification native de t\ pour lui donner la valeur de t% produirait deux 
erreurs: premierement, la contrainte t\ = ti serait oubliee au passage, comme nous 
l'avons dit ; de plus la contrainte induite ti = H n e serait pas prise en compte, puisque 
ti resterait une inconnue. 



ELI 



Traitement errone de t\ devient £3 



R2I 



La contrainte t\ 
EG 



Inconnue Inconnue 



ti est oubliee 

El] 



ED 



Inconnue Inconnue 



Inconnue 



Inconnue 



Au contraire, il faut suivre le pointeur qui donne la valeur de ti, ce qui conduit a £2, et 
modifier alors ti ■ La modification physique correcte est done la suivante : 

t\ devient t% 



[*2l 



ran 



[*2l 



Inconnue 



Inconnue Inconnue 



[*2l 



Esl 



Inconnue 



Inconnue 



Inconnue 

La prise en compte de ti = int est similaire : on modifie simplement la variable vers 
laquelle pointe t2, e'est-a-dire ts, et t\ est modifiee par effet. 



ti devient int 



En 



ET 



En 



Esi 



Eil 



Inconnue 



Inconnue 



r*2| rTI int 



ET! int 



Inconnue 



int 



La conclusion de cette discussion est qu'il est generalement incorrect d'operer sur une 
variable dont la valeur est connue : il faut directement operer sur la valeur de cette 
variable. Bien sur, si la valeur est elle-meme une variable connue, il faut aller chercher la 
valeur suivante. C'est la tache de la fonction valeur_de : sauter par-dessus les variables 
connues jusqu'a obtenir soit un terme, soit une variable inconnue. 



L 'unification 



353 



Fichicr types .ml 

let rec valeur_de = function 

I Variable ({valeur = Connue tyl} as var) -> 
let valeur_de_tyl = valeur_de tyl in 
var. valeur <- Connue valeur_de_tyl ; 
valeur_de_tyl 
I ty -> ty; ; 

La fonction valeur_de profite de sa recherche de la valeur d'une inconnue pour rac- 
courcir le chemin qui mene a cette valeur. (Le lecteur cultive aura reconnu la structure 
de donnees union-find et l'operation de path compression.) En reprenant Pexemple des 
trois variables de types t±, ti et £3, voici graphiquement l'effet physique d'un appel de 
valeur_de sur la variable t\ : 

Effets de l'application de valeur_de a t\ 
valeur_de t\ renvoie int et modifie t\ et ti 




int 

Prevention des cycles 

Un autre ecueil concerne l'equation toute simple t\ = t\. Pour la prendre en compte, 
il suffit bien entendu de ne rien faire. Cependant il faut prevoir explicitement ce cas 
dans les programmes, sous peine de faire pointer la variable de type t\ vers elle-meme 
et qui plus est de pretendre que t\ n'est plus une inconnue puisqu'elle a une valeur. 
Voici ce que donnerait une modification hative de t\ pour la faire pointer vers t\ . 

Traitement errone de t\ = t\ (t\ deviendrait cyclique) 



Inconnue 



18.4 L'unification 

L'unification est le moteur de la resolution des equations de typage. Elle consiste a 
resoudre un ensemble d'equations, en donnant aux variables de type qui interviennent 
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dans le probleme des valeurs qui rendent toutes les equations vraies. Etant donnee 
notre representation des equations, l'unification revient a prendre deux types et a les 
rendre egaux si necessaire, en attribuant des valeurs convenables aux inconnues qui 
apparaissent dans ces types. 

Le test d'occurrence 

Avant d'aborder l'unification, il nous faut expliquer une derniere subtilite du typage 
de Caml : le test d'occurrence. II consiste a verifier qu'une inconnue n'est pas presente 
dans un type dont elle doit prendre la valeur. Cela entre dans le cadre de la prevention 
des cycles, dans un cas de figure plus subtil que F affectation d'une variable a elle-meme. 
Ce test sert done a garantir que les types manipules par Falgorithme de typage sont 
toujours des arbres ne comportant pas de cycles. En effet, notre algorithme bouclerait si 
les types qui lui sont soumis devenaient cycliques en cours de typage. Avant de donner 
a une inconnue la valeur d'un type, on verifie done que cette inconnue n'apparait pas 
dans le type. Le systeme Caml fait la meme verification, comme le prouve l'exemple 
suivant : 

# let double f = f f ; ; 
Entree interactive : 
>let double f = f f ; ; 
> 

Cette expression est de type 'a -> 'b, 
mais est utilisee avec le type 'a. 

La fonction test_d' occurrence prend done une variable en argument, puis le type 
qu'on veut lui attribuer et opere une descente recursive dans les arguments de ce type 
pour verifier qu'aucun ne contient cette variable. 

Fichicr types .ml 

let test_d' occurrence var ty = 
let rec test t = 

match valeur_de t with 
I Variable var' -> 

if var == var' then raise (Circularite (Variable var, ty)) 
I Terme(constructeur, arguments) -> 
do_vect test arguments 
in test ty; ; 



Pour tester Fegalite entre la variable dont on cherche les occurrences et une autre 
variable, la fonction test_d' occurrence ne doit pas utiliser la fonction d'egalite struc- 
turelle de Caml : en effet, toutes les variables qui sont encore inconnues ont la meme 
structure (elles pointent toutes vers le constructeur Inconnue) et sont done structurelle- 
ment egales. On utilise done le test d'egalite physique, qui indique que ces arguments 
sont ranges a la meme place en memoire (ce qui assure que ces arguments sont un 
seul et meme objet). L'operateur de test d'egalite physique de deux valeurs Caml est 
predefini et note == (Finegalite physique est notee !=). Ainsi, quand le test var == 
var ' rend vrai, cela indique que var et var ' sont en fait la meme variable : dans ce cas 
on declenche l'exception Circularite avec pour arguments la variable et le type qu'on 
voulait lui affecter. 
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Mise a jour des niveaux des variables 

Chaque variable porte done un « niveau », qui indique dans quelle definition elle a 
ete creee. Plus le niveau est eleve, plus la variable a ete introduite recemment. Lorsqu'on 
affecte une variable v par un type t, il faut preserver cette information. En particulier, 
si le type t contient des variables de niveau plus eleve que v, il faut abaisser le niveau de 
ces variables au niveau de v. Tout doit se passer comme si, au lieu d'avoir introduit une 
variable a une certaine date puis determine sa valeur par resolution de contraintes, on 
avait devine la valeur correcte au moment de l'introduction de la variable. La fonction 
rectif ie_niveaux garantit cette propriete. 

Fichicr types .ml 

let rec rectif ie_niveaux niveau_max ty = 
match valeur_de ty with 
I Variable var -> 

if var. niveau > niveau_max then var. niveau <- niveau_max 
I Terme(constructeur, arguments) -> 

do_vect (rectif ie_niveaux niveau_max) arguments;; 



Le moteur de la resolution 

La fonction qui unifie deux types procede par filtrage sur ces types et ne rend pas 
de valeur : elle fait les affectations necessaires ou bien elle echoue. Elle envisage done 
tous les cas possibles de deux valeurs du type type_simple. Les deux premiers cas 
du filtrage concernent le cas d'une variable libre a unifier avec un type, et son cas 
symetrique. Le dernier cas correspond a deux types construits. 

Lorsqu'un des types est une variable, il suffit de modifier physiquement cette variable 
pour la rendre egale a l'autre type. Comme explique ci-dessus, il faut cependant effectuer 
le test d'occurrence et remettre a jour les niveaux des variables dans le type. 

Lorsque les deux types sont des types construits, de deux choses l'une : ou bien 
leurs constructeurs sont egaux, et alors il suffit d'unifier recursivement leurs arguments 
pour rendre les deux types egaux ; ou bien leurs constructeurs sont differents, auquel 
cas l'equation n'a pas de solutions et l'exception Conf lit est declenchee. 

II reste un dernier cas, qui est intercepte au tout debut de la fonction unifie: 
lorsque les deux types sont deja egaux, et tout particulierement lorsqu'ils representent 
la meme variable, il n'y a rien a faire. Pour detecter cette situation, nous prenons 
les « valeurs » des deux types, en supprimant les variables connues. Si les valeurs sont 
physiquement egales, les deux types sont egaux et l'unification s'arrete aussitot. 

Fichicr types .ml 

let rec unifie tyl ty2 = 

let valeurl = valeur_de tyl 
and valeur2 = valeur_de ty2 in 
if valeurl == valeur2 then () else 
match (valeurl, valeur2) with 
I Variable var, ty -> 

test_d' occurrence var ty; 
rectif ie_niveaux var. niveau ty; 
var. valeur <- Connue ty 
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I ty, Variable var -> 

test_d' occurrence var ty; 

rectif ie_niveaux var. niveau ty; 

var . valeur <- Connue ty 
I Terme (constrl, argumentsl) , Terme (constr2 , arguments2) -> 

if constrl <> constr2 then 

raise (Conf lit (valeurl , valeur2)) 

else 

for i = 0 to vect_length argumentsl - 1 do 

unifie argumentsl . (i) arguments2 . (i) 
done ; ; 



18.5 Inconnues, generalisation et specialisation 

Le module type tient a jour le « niveau de liaison » courant des inconnues. Ce niveau 
est increments au debut du typage d'une definition et decrements a la fin. II mesure la 
profondeur d'imbrication a gauche des constructions let. Les nouvelles inconnues sont 
creees avec le champ niveau egal au niveau courant de liaison. 

Fichicr types .ml 

let niveau_de_liaison = ref 0;; 

let debut_de_def inition () = incr niveau_de_liaison 
and fin_de_def inition () = deer niveau_de_liaison; ; 

let nouvelle_inconnue () = 

Variable {niveau = !niveau_de_liaison; valeur = Inconnue};; 



L'operation de generalisation consiste a trouver, dans le type a generalise^ toutes 
les variables dont le niveau est strictement plus grand que le niveau courant de liai- 
son. En supposant qu'on appelle generalisation juste apres fin_de_def inition, ces 
variables sont exactement les inconnues introduites pendant le typage de la derniere 
definition. La fonction generalisation en construit la liste (en faisant bien attention 
a ne pas mettre plusieurs fois la meme variable dans la liste) ; cette liste constitue la 
liste des parametres du schema de type renvoye par generalisation. 

Fichicr types .ml 

let generalisation ty = 
let params = ref [] in 
let rec trouve_parametres ty = 
match valeur_de ty with 
I Variable var -> 

if var. niveau > !niveau_de_liaison && not memq var ! params 
then params := var : : ! params 
I Terme (constr, arguments) -> 

do_vect trouve_parametres arguments in 
trouve_parametres ty; 
{parametres = ! params; corps = ty};; 



Impression des types 

let schema_trivial ty = {parametres = [] ; corps = ty};; 



357 



L'operation de specialisation consiste a associer une nouvelle inconnue a chaque 
parametre du schema, puis a faire une copie du corps du schema en remplacant les 
variables qui sont des parametres par l'inconnue qui leur est associee. La recherche 
de l'inconnue associee a un parametre de type donne a lieu dans la liste d'association 
nouvelles_inconnues, a l'aide de la fonction predefinie assq, similaire a assoc mais 
utilisant le test d'egalite physique == au lieu du test d'egalite structurelle =. 

Fichicr types .ml 

let specialisation schema = 
match schema. parametres with 
I [] -> schema. corps 
I params -> 

let nouvelles_inconnues = 

map (fun var -> (var, nouvelle_inconnue ())) params in 
let rec copie ty = 

match valeur_de ty with 
I Variable var as ty -> 

(try assq var nouvelles_inconnues with Not_found -> ty) 
I Terme(constr, arguments) -> 

Terme(constr, map_vect copie arguments) in 
copie schema. corps ; ; 



18.6 Impression des types 

II nous reste a ecrire les fonctions d'impression des types. C'est un peu long mais 
sans reelle difhculte. La seule astuce consiste a produire de jolis noms pour les variables 
de type ('a, 'b, ...). Nous avons egalement simplifie le code en supposant que les 
constructeurs de types ont au plus deux arguments et que ceux qui ont deux arguments 
se notent de maniere infixe (comme -> et *). Ce n'est pas vrai en general, mais c'est le 
cas en mini-Caml. 

Fichicr types .ml 

let noms_des_variables = ref ( [] : (variable_de_type * string) list) 
and compteur_de_variables = ref 0;; 

let imprime_var var = 
print_string " '" ; 
try 

print_string (assq var ! noms_des_variables) 
with Not_found -> 
let nom = 

make_string 1 

(char_of _int (int_of _char 'a' + ! compteur_de_variables) ) in 
incr compteur_de_variables; 

noms_des_variables := (var, nom) :: !noms_des_variables; 
print_string nom;; 



let rec imprime ty = 
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match valeur_de ty with 
I Variable var -> 

imprime_var var 
I Terme (constructeur, arguments) -> 
match vect_length arguments with 
I 0 -> print_string constructeur 
I 1 -> imprime arguments . (0) ; 

print_string " " ; print_string constructeur 
I 2 -> print_string "("; imprime arguments . (0) ; 

print_string " "; print_string constructeur; 
print_string " "; imprime arguments . (1) ; 
print_string ") " ; ; 



let imprime_type ty = 

noms_des_variables := [] ; 
compteur_de_variables := 0; 
imprime ty; ; 



let imprime_schema schema = 
noms_des_variables := [] ; 
compteur_de_variables := 0; 
if schema. parametres <> [] then begin 
print_string "pour tout " ; 

do_list (fun var -> imprime_var var; print_string " ") 

schema . parametres ; 
print_string " , " 
end; 

imprime schema. corps ; ; 



18.7 La boucle d'interaction 

Pour finir, il ne nous reste plus qu'a mettre une boucle d'interaction autour du 
synthetiseur de types. La boucle est un decalque exact de celle utilisee pour Pinterprete 
mini-Caml du chapitre precedent. 

Fichicr typeur .ml 



#open "syntaxe" ; ; 
#open "types" ; ; 
#open "synthese";; 

let type_arithmetique = schema_trivial 

(type_fleche (type_produit type_int type_int) type_int) 
and type_comparaison = schema_trivial 

(type_f leche (type_produit type_int type_int) type_bool) ; ; 



let env_initial = 

["+", type_arithmetique ; 
type_arithmetique ; 
type_comparaison ; 
"<", type_comparaison; 



n _ ii 



_ 11 


type. 


.arithmetique 


/"', 


type. 


.arithmetique 


<>", 


type. 


.comparaison; 


>", 


type. 


.comparaison; 
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"<=", type_comparaison; ">=", type_comparaison; 

"not", schema_trivial(type_f leche type_bool type_bool) ; 
"read_int", schema_trivial(type_f leche type_int type_int) ; 
"write_int", schema_trivial (type_f leche type_int type_int)];; 

let boucle () = 

let env_global = ref env_initial in 

let flux_d' entree = stream_of _channel std_in in 

while true do 

print_string "# "; flush std_out; 

try 

match lire_phrase flux_d' entree with 
I Expression expr -> 

let ty = type_exp ! env_global expr in 

print_string "- : "; imprime_type ty; 

print_newline () 
I Definition def -> 

let nouvel_env = type_def ! env_global def in 

begin match nouvel_env with 

I (nom, schema) : : _ -> 

print_string nom; print_string " : "; 
imprime_ schema schema; print_newline () 

end; 

env_global := nouvel_env 

with 

I Parse_error I Parse_f ailure -> 

print_string "Erreur de syntaxe"; print_newline () 
I Conflit(tyl, ty2) -> 

print_string "Incompatibility de types entre "; 

imprime_type tyl; print_string " et "; 

imprime_type ty2; print_newline () 
I Circularite(var, ty) -> 

print_string "Impossible d' identifier "; 

imprime_type var; print_string " et "; 

imprime_type ty; print_newline () 
I Erreur msg -> 

print_string "Erreur de typage : "; print_string msg; 

print _newline () 

done ; ; 

if sys interactive then () else boucle () ; ; 



18.8 Mise en ceuvre 

L'ensemble du programme se compile par les commandes suivantes. 

$ camlc -c syntaxe. mli 
$ camlc -c types. mli 
$ camlc -c types. ml 
$ camlc -c synthese.mli 
$ camlc -c synthese.ml 
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$ camlc -c lexuniv.mli 
$ camlc -c lexuniv.ml 
$ camlc -c syntaxe.ml 
$ camlc -c typeur.ml 

$ camlc -o typeur types. zo synthese. zo lexuniv.zo syntaxe.zo typeur.zo 

Le programme se lance par camlrun typeur ou typeur boucle () et infere vaillam- 

ment les types de nos fonctionnelles preferees. 

# let rec map = 

function f -> function []->[] I a : : 1 -> f a : : map f 1;; 
map : pour tout 'a 'b , (('b -> 'a) -> ('b list -> 'a list)) 

# map (function x -> x + 1) (1 :: 2 :: 3 :: [] ) ; ; 

- : int list 

# map (function x -> x) [] ; ; 

- : 'a list 

# map (function x -> not x) (1 :: 2 :: [] ) ; ; 
Incompatibility de types entre bool et int 

# let id = function x -> x in id (id (id));; 

- : ('a -> 'a) 



18.9 Pour aller plus loin 

Complexity de l'algorithme de synthese de types 

II est tres difficile de faire l'analyse de la complexity de l'algorithme de typage 
que nous avons presente. C'est si vrai qu'il a fallu attendre plus de dix ans avant que 
cette etude soit realisee par P. Kanellakis, H. Mairson et J. Mitchell, dans Particle 
« Unification and ML type reconstruction », Computational Logic: Essays in Honor of 
Alan Robinson, MIT Press, 1991. Avant cette publication, il etait «bien connu» dans 
la communaute des chercheurs que la synthese de type d'un langage comme Caml etait 
lineaire. Ce «resultat» purement intuitif venait uniquement de l'experience, car on 
« voyait » bien que les compilateurs se comportaient normalement : le temps de compi- 
lation doublait approximativement quand la taille du programme doublait. 

Le resultat theorique est stupefiant : le typage des programmes est en fait expo- 
nentiel, et meme doublement exponentiel dans notre cas. Or nous savons qu'un al- 
gorithme exponentiel est catastrophiquement lent quand la taille des donnees aug- 
mente. Le caractere doublement exponentiel de l'algorithme de typage devrait le ren- 
dre completement inutilisable en pratique. Et pourtant, a quelques nuances pres, cet 
algorithme est celui qu'on utilise dans les implementations de Caml et l'on constate 
(vous pouvez constater) qu'il est assez efficace. La raison en est que le comportement 
exponentiel, pour indeniable qu'il soit, est extremement pathologique. La source de 
difficulte reside dans le polymorphisme, mais uniquement pour des programmes dont 
le polymorphisme est extraordinaire, voire deraisonnable. 

Pour montrer qu'une phrase peut induire du polymorphisme de facon exponentielle 
par rapport a sa taille, nous utiliserons la source la plus simple de polymorphisme, la 
liste vide et la paire. Nous definissons une expression par une cascade de let ... in. 
A chaque etage les parametres du schema de type de l'etage precedent sont dupliques. 
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Un etage supplementaire multiplie done par deux le nombre de parametres de type du 
resultat. 

# let xO = [] in xO,xO; ; 

- : 'a list * >b list = [], [] 

# let xO = [] in let xl = xO,xO in xl.xl;; 

- : Ca list * >b list) * Cc list * >d list) = ([], []), ([], []) 

Plagons-nous directement au niveau 3 et arretons-nous la, parce que les types grossissent 
trop vite. 

# let xO = [] in let xl = xO,xO in let x2 = xl.xl in 

let x3 = x2,x2 in x3,x3; ; 

((('a list * 'b list) * Cc list * 'd list)) * 

(Ce list * >f list) * Cg list * 'h list))) * 
((('i list * 'j list) * Ck list * '1 list)) * 

(Cm list * 'n list) * Co list * 'p list))) = 
(((O, []), (O, O)), ((0, []), (0, 0))), 
(((0, []), (O, 0)), ((O, O), ([], O))) 

On montre facilement qu'au niveau 10 on aura 2 10 (soit 1024) parametres de type et 
que le type du resultat occupera presque 28000 caracteres (15 ecrans de 24 lignes sur 80 
colonnes). Dans ce cas le typage du programme est bien plus long que son execution: 
l'execution est instantanee, puisqu'il suffit de construire 10 cellules de paires ! 

La paire (le constructeur infixe « , ») n'est pas responsable de ce phenomene : il est 
possible de le reproduire en n'utilisant que des fonctions. II existe en effet un codage 
fonctionnel de la paire : Pidee consiste a considerer une paire comme un objet qui 
repond aux messages « premiere composante » et « seconde composante » ; e'est done 
une fonction qui applique une projection a ses deux composantes, a charge pour la 
projection de selectionner la composante qui l'interesse. 

# let paire x y = function projection -> projection x y; ; 
paire : 'a -> 'b -> ('a -> 'b -> ' c) -> 'c = <fun> 

# let fst paire = paire (function x -> function y -> x) 
and snd paire = paire (function x -> function y -> y) ; ; 

fst : (Ca -> 'b -> 'a) -> ' c) -> 'c = <fun> 
snd : (Ca -> 'b -> 'b) -> ' c) -> 'c = <fun> 

# let paire_un_true proj = paire 1 true proj ; ; 
paire_un_true : (int -> bool -> 'a) -> 'a = <fun> 

# fst paire_un_true ; ; 

- : int = 1 

# snd paire_un_true ; ; 

- : bool = true 

On reproduit alors exactement les memes exemples que ci-dessus, sans utiliser de struc- 
tures de donnees. 

Assez curieusement, la complexite de l'algorithme de typage a deux sources : la 
recherche du type de la phrase evidemment, mais aussi la simple impression du type 
resultat. On montre en effet que la representation interne du type des phrases sans let 
est toujours fortement partagee : la taille du type est au plus lineaire par rapport a la 
taille du programme. Si done on prend soin de ne pas departager les types pendant 
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le typage et qu'on ecrit les types en exhibant leur partage, l'algorithme de synthese 
de type devient lineaire pour les expressions qui ne comportent pas de let. Lorsqu'on 
utilise la construction let, il n'existe pas d'algorithmc de typage lineaire. La taille du 
type d'une phrase comportant n constructions let est susceptible d'atteindre 2 n . Pire, 
si l'on ne prend pas soin d'imprimer les types avec le partage, alors la taille du type 
produit (en nombre de caracteres) peut atteindre 2 2 ™ ! Voici un exemple de programme 
produisant ce comportement pathologique. 

# let paire x = function proj -> proj x x; ; 
paire : 'a -> ('a -> 'a -> 'b) -> 'b = <fun> 

# let xO y = paire (paire y) ; ; 

xO : 'a -> ((('a -> 'a -> 'b) -> 'b) -> (('a -> 'a -> 'b) -> 'b) -> ' c) -> 
'c = <fun> 

# let xl y = xO (xO y) ; ; 

xl : 'a -> ((((((('a -> 'a -> 'b) -> 'b) -> (('a -> 'a -> 'b) -> 'b) -> ' c) 
-> 'c) -> (((('a -> 'a -> 'b) -> 'b) -> (('a -> 'a -> 'b) -> 'b) -> ' c) -> 
'c) -> 'd) -> >d) -> (((((('a -> 'a -> 'b) -> 'b) -> (('a -> 'a -> 'b) -> 'b) 
-> 'c) -> 'c) -> (((('a -> 'a -> 'b) -> 'b) -> (('a -> 'a -> 'b) -> 'b) -> 
'c) -> 'c) -> 'd) -> 'd) -> 'e) -> 'e = <fun> 

Nous n'irons pas plus loin sous peine de remplir ce livre avec les types de cette serie. 
Vous continuerez vous-meme avec : 

let x2 y = xl (xl y) ; ; let x3 y = x2 (x2 y) ; ; let x4 y = x3 (x3 y) ; ; 

A titre indicatif, le type de x2 depasse les 72 lignes de 80 caracteres, celui de x3 les 18000 
lignes (en fait 1441777 caracteres ou environ 300 pages de ce livre !). Pour x4 nous vous 
laissons attendre le resultat, s'il vous interesse . . . Retenons qu'il existe des programmes 
Caml de quelques lignes (mettons trois) qui demandent un temps de typage exorbitant. 
Nous avons done la preuve que cet algorithme est au moins exponentiel dans le pire 
des cas. Sa complexite en moyenne est difficile a estimer (qu'est-ce qu'un programme 
Caml «moyen» de taille nl). Nous sommes done en presence d'un algorithme ayant 
une complexite extremement elevee dans le pire des cas, mais une complexite lineaire 
en pratique (e'est-a-dire pour les donnees qu'on lui donne effectivement a traiter). Dans 
le pire des cas, tout se passe comme si on parvenait a soumettre a l'algorithme des 
donnees completement improbables, sur lesquelles il presente une complexite maximale. 
En pratique, les programmes Caml qu'on ecrit vraiment sont peu polymorphes et dans 
ce cas l'algorithme de typage est effectivement lineaire. Finalement, le pire n'est pas 
forcement le plus probable, heureusement ! 

Concept general d'unification 

Pour resoudre les equations de typage, nous avons introduit la notion d'unification. 
Cette notion n'est pas restreinte aux problemes d'equations entre types : elle se 
definit dans le cadre plus general des algebres de termes (e'est-a-dire des structures 
mathematiques minimales ou l'on puisse parler de variables, de constantes et de 
fonctions d'arite fixee). C'est aussi le mecanisme d'evaluation de base des langages de 
programmation logique tels que Prolog. 



Pour aller plus loin 
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Typage des valeurs mutables 

Nous n'avons pas aborde le typage des traits imperatifs de Caml. Si la compila- 
tion des valeurs mutables et de l'affectation n'est pas un probleme difficile, leur typage 
polymorphe est un probleme qui a fait couler beaucoup d'encre. La difficulty vient essen- 
tiellement du polymorphisme et de la generalisation des valeurs dont on peut changer 
dynamiquement le type par affectation, en invalidant ainsi les hypotheses du controleur 
de type. Prenons comme exemple, le cas des references. Le type naturel de ref est 
Pour tout type 'a, 'a — > 'a ref, celui de l'affectation est Pour tout type 'a, 'a ref — ► 
'a — ► unit et enfin le dereferencement a pour type Pour tout type 'a, 'a ref — > 'a. 
Remarquez que ces types sont polymorphes. 

Considerez le programme suivant : 

# let y = ref [] in 

y := true : : !y; 
y := 1 :: !y; 

!y;; 

Entree interactive: 

> y ••= i •••• !y; 

> 

Cette expression est de type bool list, 
mais est utilisee avec le type int list. 

Le controleur de type a tres soigneusement evite de generaliser le type de la variable 
y. A defaut, il aurait obtenu le type Pour tout type 'a, 'a list ref. En ce cas, la 
premiere affectation aurait insere true dans la liste pointee par y et la seconde aurait 
ete acceptee, inserant un entier dans la meme liste. Cela aurait evidemment invalide 
Phypothese fondamentale que les listes sont homogenes. 

Cependant, si le controleur de type avait suivi les regies habituelles, cette 
generalisation aurait du avoir lieu, comme dans l'exemple similaire sans references. 

# let y = [] in 

let z = true : : y in 

i :: y;; 

- : int list = [1] 

De nombreux algorithmes ont ete proposes pour typer les valeurs mutables. Tous 
tentent d'eviter la creation de valeurs mutables polymorphes, en restreignant le poly- 
morphisme au niveau de la construction let. Nous n'etudierons pas ces algorithmes 
qui ne sont pas simples et sans doute pas encore definitifs. 

II existe cependant une methode tres simple permettant de regler ce probleme : elle 
consiste a changer l'algorithme de base, bien entendu au niveau du typage du let, en 
decidant que toutes les expressions ne sont pas generalisables : on ne generalise que 
les constantes, les variables et les fonctions immediates. La preuve de correction de cet 
algorithme pour les valeurs mutables est facile a apporter : il n'y a jamais de creation de 
valeurs mutables polymorphes, puisque le polymorphisme est reserve a des expressions 
qui ne peuvent pas creer de valeurs mutables. C'est en effet clair pour les constantes 
et les variables. Pour les fonctions immediates c'est aussi evident : ces fonctions sont 
celles directement introduites par le mot-cle function; on n'evalue done rien lors de 
leur definition. 
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L 'inconvenient de cette methode est qu'elle modifie l'algorithme de base ; en par- 
ticulier elle refuse de generaliser les applications, quelles qu'elles soient. Cela inter- 
dit de definir une fonction polymorphe par application partielle : let map_id = map 
identite; ; est alors type de fagon monomorphe. En pratique, ce n'est pas si grave car 
il suffit de faire une ^-expansion, en ajoutant un parametre supplementaire. On ecrirait 
let map_id 1 = map identite 1;; 

Cette derniere phrase n'est pas vraiment plus complexe que l'application partielle ; on 
peut meme la juger plus claire. 

L'avantage fondamental de cette methode est sa grande simplicite : on conserve les 
memes types qu'avant l'introduction des valeurs mutables et les fonctions manipulant 
les valeurs mutables sont, sans danger, completement polymorphes. C'est d'ailleurs la 
methode adoptee actuellement dans les compilateurs Caml : 

# let identite x = x;; 
identite : 'a -> 'a = <fun> 

# let map_id_poly 1 = map identite 1;; 
map_id_poly : 'a list -> 'a list = <fun> 

# let map_id = map identite;; 
map_id : ' _a list -> ' _a list = <fun> 

La variable de type notee ' _a par le systeme Caml correspond exactement aux variables 
de type inconnues de notre controleur de type et, comme elles, la variable '_a est 
susceptible de recevoir un type par unification dans la suite du typage du programme : 

# map_id [1 ; 2 ; 3] ; ; 

- : int list = [1; 2; 3] 

# map_id; ; 

- : int list -> int list = <fun> 

La modification de notre controleur de type pour qu'il obeisse a cette maniere de 
traiter les valeurs mutables polymorphes est un exercice facile que nous laissons au 
lecteur. 
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En guise de conclusion 



Tout a une fin, mais ce n'est pas triste . . . 



N conclusion de CE livre, nous aimerions reflechir sur les idees generates qui 
se degagent de l'ensemble des programmes des deuxieme et troisieme parties de 
notre ouvrage. Et pour terminer en beaute, nous esquisserons a grands traits 
ce que pourrait etre Pimplementation d'un compilateur Caml, en passant rapidement 
en revue les principales difficultes specifiques a la compilation des langages fonctionnels. 

19.1 Une methodologie de programmation 

En etudiant les exemples presentes dans ce livre, vous avez pu constater que la 
demarche etait souvent la meme : nous definissions d'abord une structure de donnees, 
la syntaxe abstraite, puis un moyen commode de faire produire par Caml des valeurs 
de ce type, la syntaxe concrete avec son analyseur lexico-syntaxique. Apres ces deux 
etapes en guise de preambule, nous passions aux choses serieuses, a savoir le travail sur 
la syntaxe abstraite et son interpretation par des programmes d'analyse semantique. 
Cette methodologie a commence tres tot avec le crayon electronique et le langage mini- 
Logo et s'est poursuivie ensuite sans discontinuer dans des domaines aussi divers que 
la demonstration de tautologies avec son langage des formules, la commande grep avec 
son langage d'expressions rationnelles, la pico-machine avec son langage d'assemblage, 
et bien entendu le mini-Pascal et le mini-Caml dont les langages associes etaient di- 
rectement des langages de programmation usuels. 

Dans tous les cas, nous etions ramenes a definir et implementer un langage, aussi 
bien en ce qui concerne la syntaxe (abstraite et concrete) que la semantique. Cette 
methodologie est tres generale et feconde. Par exemple, un grand nombre de com- 
mandes du systeme d'exploitation Unix se presentent sous la forme de petits langages 
specialises ; c'est egalement le cas d'editeurs de textes comme Emacs, de traitements 
de textes comme TgX, et meme des langages HTML et XML de description de pages 
Web. C'est pourquoi nous avons abondamment illustre cette methodologie, pour vous 
permettre de la reconnaitre dans les problemes de programmation qui se presenteront 
a vous. 
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Les deux modes devaluation 

Si le volet syntaxique de cette methode est relativement invariant d'une applica- 
tion a l'autre, le volet semantique se subdivise en deux grandes classes : Interpretation 
et la compilation. Dans les deux cas, la semantique consiste en un calcul de valeurs 
associees aux arbres de syntaxe abstraite. Mais ce calcul s'effectue soit directement, 
et il s'agit alors d'interpretation (evaluateur des tautologies, du langage graphique, de 
mini-Caml) ; soit en deux etapes correlees, en produisant d'abord une nouvelle donnee 
a partir de l'arbre de syntaxe abstraite, puis en evaluant cette nouvelle donnee, et il 
s'agit maintenant de compilation (compilation d'un automate a partir d'une expres- 
sion rationnelle ou production de code pour la pico-machine a partir d'un programme 
Pascal). 

Generalement, les semantiques a compilateur sont plus efficaces que celles a in- 
terpreter, car la phase de compilation permet d'une part d'anticiper et de preparer 
la phase devaluation et d'autre part de mettre en facteur certaines parties repetitives 
de revaluation. Dans le cas d'un langage de programmation, cet avantage de la com- 
pilation est particulierement clair : lorsque Pinterpreteur doit evaluer un programme, il 
lui faut constamment analyser l'arbre de syntaxe abstraite, alors qu'un code compile 
n'a plus de questions a se poser : le compilateur a fait une fois pour toute l'analyse. 
L'exemple des boucles est frappant a cet egard : l'interprete reanalyse le corps de la 
boucle a chaque tour de boucle, alors que le code compile execute directement ce corps. 

Compilation et interactivity 

Interessons-nous plus particulierement a la derniere partie de ce livre, celle qui 
concerne l'« introspection » de Caml. Nous avons donne une semantique a interpreteur 
pour mini-Caml. Nous l'avons fait a des fins pedagogiques, mais ce n'est pas une 
methode realiste d'implementation de Caml: tous les systemes Caml reposent sur 
des compilateurs. Cela peut surprendre dans la mesure ou tous les systemes Caml 
proposent aussi une boucle d'interaction a l'utilisateur. Or, il est clair qu'un interprete 
est plus adapte a revaluation interactive, puisqu'il calcule directement la semantique 
du programme, alors qu'un compilateur separe nettement la production du code 
compile de son execution, rendant apparemment impossible l'obtention immediate du 
resultat du programme. Cependant, tous les systemes Caml disposent d'une boucle 
d'interaction sans interprete, uniquement basee sur un compilateur : chaque phrase 
entree par l'utilisateur est aussitot compilee, puis le code produit est execute «a la 
volee ». 

Cette methode est techniquement plus difficile que Interpretation, mais elle of- 
fre de grands avantages : lorsqu'un langage est evalue par deux methodes differentes, 
interpretation et compilation, il se pose immediatement des problemes de coherence 
entre ces deux methodes. II faut en effet prouver que dans tous les cas les resultats pro- 
duits par l'interprete et par le compilateur sont les memes. En ce qui concerne Caml 
cette propriete est assuree de facto, puisqu'il n'y a qu'un seul moyen d'attribuer une 
semantique au programme : qu'on soit en programmation separee ou en interaction di- 
recte avec le langage, c'est toujours le meme compilateur qui travaille. Pour la meme 
raison, il n'y a pas de difference d'efhcacite entre programmes independants et pro- 
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grammes du systeme interactif : compiles comme les autres, les programmes developpes 
interactivement s'executent forcement a la meme vitesse. 



19.2 La compilation de Caml 

En point d'orgue a ce livre, nous aurions naturellement aime vous presenter un com- 
pilateur pour le langage mini-Caml, produisant du code pour la pico-machine. Nous y 
avons renonce pour des questions de volume : un tel compilateur est un assez gros pro- 
gramme ; meme si la plupart des techniques introduites dans le compilateur mini-Pascal 
s'appliquent sans changements a mini-Caml, il reste a resoudre un certain nombre de 
difficultes propres a Caml. La quarantaine de pages de code et d'explications necessaires 
auraient rendu ce livre trop epais. Dans cette conclusion, nous nous contenterons de 
donner un apercu des problemes nouveaux que pose la compilation de Caml et des 
techniques mises en oeuvre dans les systemes Caml. 

La gestion automatique de la memoire 

Allocation de memoire Le langage Caml necessite des methodes complexes de 
gestion de la memoire, c'est-a-dire d'allocation et de liberation des adresses memoires. 
L'allocation consiste a reserver un certain espace dans la memoire (un bloc de memoire) 
pour y ranger des donnees. On l'utilise par exemple pour fabriquer des tableaux, des 
paires, des cellules de listes ou des chaines de caracteres. Un programme Caml ordinaire 
alloue un grand nombre de blocs, mais ces blocs ont generalement une duree de vie assez 
breve. Un exemple simple : lorsqu'on utilise des listes, il est courant de creer une liste 
pour y appliquer aussitot map ; en ce cas, la liste de depart est devenue inutile, car seule 
la liste resultat est utilisee dans le reste du programme. Cela signifie qu'on remplit 
facilement toute la memoire avec des blocs dont beaucoup ne servent plus. Pour eviter 
cela, il faut savoir liberer les blocs memoire devenus inutiles, pour pouvoir reutiliser la 
place memoire qu'ils occupaient. 

Recuperation de memoire II y a principalement deux moyens de liberer des blocs : 
le premier consiste simplement a laisser ce soin au programmeur, qui devra explicite- 
ment signaler quand un bloc alloue est libre. Le second est la liberation implicite, 
geree automatiquement par un programme specialise, le recuperateur de memoire. La 
liberation explicite n'existe pas en Caml, car c'est une source d'erreurs subtiles et 
frequentes. Frequentes, parce qu'il est facile d'oublier qu'une partie d'une structure de 
donnees est utilisee par la suite et done de liberer trop tot cette structure. Subtiles, car 
lorsqu'un bloc memoire est libere, les donnees qu'il contenait ne sont pas immediatement 
detruites : elles resteront valides tant qu'on n'ecrira pas d'autres donnees au meme en- 
droit. Cela signifie que le programme continuera a marcher un certain temps apres la 
liberation qui cree l'erreur. Au gre du chemin pris dans le programme, ces valeurs seront 
detruites plus ou moins tard, donnant a Putilisateur l'impression que son programme 
se comporte de maniere erratique. 
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La recuperation automatique de memoire La manipulation sure et facile des 
structures de donnees suppose done l'allocation et la liberation automatique des blocs 
de memoire. Les programmes Caml s'executent done en collaboration avec un pro- 
gramme specialise pour gerer la memoire de la machine : le gestionnaire memoire. Ce 
programme se compose de deux parties, l'allocateur de memoire et le recuperateur de la 
memoire inutilisee. Le recuperateur est communement appele « GC », pour garbage col- 
lector, litteralement «eboueur». On traduit generalement GC par «glaneur de cellules » 
ou encore « ramasse-miettes ». Le mecanisme general du GC est le suivant : lorsque 
l'allocateur de memoire ne peut satisfaire une requete par manque de memoire libre, 
le GC se declenche et parcourt recursivement toutes les donnees utilisees par le pro- 
gramme en cours. II commence par le contenu des registres, de la pile et de toutes les 
variables globales, puis « descend » recursivement dans les structures de donnees. De ce 
parcours, le GC deduit Pensemble des adresses memoire accessibles, done potentielle- 
ment utilisees par le programme. Toutes les autres adresses sont forcement inutilisees 
et done recuperables. 

Ce mecanisme de parcours des donnees actives impose des contraintes sur la 
representation des structures de donnees en memoire. Essentiellement, le GC doit 
savoir distinguer, parmi les champs d'une structure, les pointeurs vers des sous- 
structures (qu'il faut parcourir recursivement) des donnees qui ne sont pas des 
pointeurs, comme par exemple les nombres entiers (sur lesquels le GC doit arreter son 
parcours). L'approche suivie par les systemes Caml est de coder pointeurs et entiers 
de maniere a les distinguer par examen de leur code. Par exemple, on code les adresses 
memoires par des mots pairs et les entiers par des mots impairs. Le GC «sait» alors 
qu'il doit parcourir recursivement les mots pairs et ignorer les mots impairs. Toutes 
les donnees non entieres sont representees par l'adresse memoire d'un bloc de memoire 
alloue, bloc qui est muni d'un en-tete indiquant au GC la taille du bloc et le type 
de donnees contenues dans le bloc. Les adresses sont naturellement des mots pairs 
sur la plupart des machines. Quant aux entiers, pour garantir qu'ils sont toujours 
represented par des mots impairs, on represente l'entier Caml n par le mot 2n + 1 dans 
la machine. On compile alors sans difficultes les primitives arithmetiques en tenant 
compte de ce codage (l'addition de deux entiers consiste a additionner leurs codes et a 
soustraire 1 au result at, par exemple). Le prix de ce codage est un leger ralentissement 
des operations arithmetiques et Pimpossibilite d'obtenir tout Pintervalle des entiers 
representables par un mot machine (on perd un bit). 

La compilation du polymorphisme 

Tout comme la recuperation automatique de memoire, le polymorphisme impose 
egalement des contraintes sur la representation des donnees Caml dans la machine. Les 
fonctions polymorphes sont appliquees a des donnees de types differents sur lesquelles 
ces fonctions operent de facon uniforme. Le meme code machine doit done operer uni- 
formement sur des donnees de tous les types, des entiers aux structures de donnees 
les plus complexes. Ceci n'est possible que si tous les types de donnees partagent un 
format commun de representation; en particulier, si toutes les representations ont la 
meme taille. En general on choisit une taille d'un mot memoire. Les objets qui occu- 
pent naturellement plus d'un mot (nombres flottants, n-uplets, etc.) sont alors alloues 



La compilation de Caml 



369 



en memoire et manipules par Pintermediaire d'un pointeur. Cette approche simple se 
prete parfaitement au polymorphisme, au prix d'une certaine inefficacite dans les ma- 
nipulations d'objets alloues. 

Pour essayer de reduire cette inemcacite, une autre voie prometteuse a ete proposee 
recemment pour admettre des donnees de taille heterogene (comme les tableaux alloues 
a plat de mini-Pascal), tout en conservant le polymorphisme parametrique de Caml: il 
s'agit de modifier la representation des donnees au cours de l'execution des programmes. 
Ainsi, certaines fonctions non polymorphes travaillent avec des donnees occupant plus 
d'un mot (par exemple des flottants sur deux mots), tandis que les fonctions polymor- 
phes travaillent systematiquement avec des donnees d'un mot. Lorsque des fonctions 
polymorphes et des fonctions normales echangent des donnees, celles-ci sont allouees 
dans un objet structure a P entree des fonctions polymorphes qui ne connaissent pas la 
representation specifique des donnees ; ainsi les fonctions polymorphes regoivent tou- 
jours un objet de taille fixe, entier ou pointeur sur leur argument. Symetriquement, a 
la sortie des fonctions polymorphes, les donnees sont extraites de l'objet structure qui 
les contient et remises a plat pour etre passees aux fonctions monomorphes qui con- 
naissent leur representation. II va sans dire que cette methode est bien plus complexe 
que la precedente, mais donne generalement de meilleurs resultats. Actuellement, tous 
les systemes Caml fonctionnent avec des donnees de taille uniforme. 

La compilation de la fonctionnalite 

Les fermetures Au niveau du compilateur proprement dit, la principale nouveaute 
de Caml par rapport a Pascal est la pleine fonctionnalite. Lorsque les fonctions peuvent 
etre calculees et renvoyees en resultat, il n'est plus possible de les representer unique- 
ment par des adresses de morceaux de code machine. Comme nous l'avons vu dans 
Pinterpreteur mini-Caml, il faut introduire la notion de fermeture, c'est-a-dire trans- 
former les fonctions en structures de donnees allouees contenant, en plus de l'adresse 
du code de la fonction, Penvironnement au moment de la definition de la fonction. 
Le code produit pour une definition de fonction alloue cette fermeture et y stocke 
Penvironnement courant. Le code produit pour appliquer une fonction va chercher dans 
la fermeture l'adresse du code de la fonction et se branche a cette adresse, non sans avoir 
passe la partie environnement de la fermeture en argument supplement aire a la fonc- 
tion. Le corps de la fonction est compile de maniere a aller chercher dans cet argument 
supplementaire la valeur des identificateurs fibres. 

Appel de fonctions inconnues En plus du recours aux fermetures, la pleine fonc- 
tionnalite impose un mecanisme uniforme d'appel de fonctions. Toute fonction Caml 
est susceptible d'etre appelee par une fonction qui ne connait rien de la fonction qu'elle 
appelle : par exemple, map recoit n'importe quelle fonction en argument et Pappelle sans 
rien savoir a son propos. En general, lorsque le compilateur produit du code pour une 
application de fonction, il ne connait pas la definition de cette fonction, ce qui l'empeche 
de faire certaines optimisations simples. En particulier, une application de fonction a 
plusieurs arguments / e\ ... e n n'est generalement pas compilable «a la Pascal », en 
passant les n arguments d'un seul coup, car rien ne garantit que / soit une fonction 
a n arguments de la forme f x\ ... x n = . . . : elle pourrait aussi bien etre le resultat 
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d'un calcul beaucoup plus complique, rendant necessaire de passer les n arguments un 
par un, avec des constructions de fermetures intermediaries (pensez a map successeur, 
pour une fonction a un argument, et a let f x = let ... in (function y -> . . .), 
pour une fonction a deux arguments). En bref, la notion d'arite d'une fonction est dif- 
ficile a definir en Caml : elle ne se detecte pas directement par le type des fonctions 
et impose done une analyse parallele au typage. La dimculte est encore plus grande si 
l'on souhaite traiter de la meme maniere les fonctions n-aires curryfiees et les fonctions 
n-aires non curryfiees (celles dont les arguments sont syntaxiquement sous la forme 
d'un n-uplet). Les meilleurs compilateurs Caml savent optimiser les appels directs aux 
deux types de fonctions. 

Creation des fermetures En pratique, beaucoup de programmes Caml n'utilisent 
pas la pleine fonctionnalite et sont en fait tres proches de programmes Pascal (tout au 
moins du point de vue de la compilation). Si le compilateur s'efforce d'adopter pour 
ces programmes la meme strategie qu'un compilateur Pascal, il fera du bon travail. 
Par exemple, dans les programmes courants, la plupart des appels de fonctions con- 
cernent des fonctions connues du compilateur et dans ce cas le compilateur produit du 
code plus efneace, en passant tous les arguments d'un seul coup et en engendrant un 
appel direct au code de la fonction. De la meme fagon, on n'est pas oblige de fabri- 
quer systematiquement une fermeture pour toutes les fonctions d'un programme car 
beaucoup de fonctions restent locales au module (ou a la phrase) qui les definit. Le 
compilateur doit s'efforcer de detecter ces cas. Remarquez cependant qu'on ne peut 
pas eliminer la fabrication dynamique de fermetures, au cours de l'execution (pensez a 
let g = function x -> function y -> x + y, puis a let h = g 3, ou encore a des 
fonctions dont la valeur est ecrite dans une structure de donnees). 

Lorsqu'il est contraint et force d'allouer une fermeture, le compilateur a le choix en- 
tre plusieurs strategies d'allocation des environnements de fermetures. La premiere est 
le partage maximal des environnements : l'environnement d'execution du programme 
est constamment maintenu a l'execution, comme pour notre interpreteur mini-Caml, et 
l'allocation d'une fermeture se reduit a creer une paire entre l'environnement courant 
et l'adresse de code de la fonction. L'autre strategie est l'allocation « a plat » des fer- 
metures. Le compilateur cree un tableau contenant les valeurs des variables libres du 
corps de la fonction. Cette methode assure que l'environnement de la fermeture con- 
tient seulement les valeurs necessaires a l'execution de la fonction, mais elle oblige a 
recopier ces valeurs a chaque creation de fermeture. La premiere methode partage au 
maximum les environnements, mais tout l'environnement d'execution est mis dans la 
fermeture creee. Cette methode met done aussi le maximum de valeurs inutiles dans les 
fermetures, occasionnant ainsi des fuites de memoires, ce qui correspond a la retention 
de cases memoires non utilisees mais irrecuperables par le GC, car toujours accessibles 
a partir des donnees du programme (dans notre cas, une fermeture qui contient une 
donnec a laquelle elle n'accedera jamais). Ces fuites de memoires s'averent redhibitoires 
pour certains programmes, dans la mesure oil elles sont imparables : le programmeur n'a 
pas les moyens de les eviter, puisque e'est la methode de compilation des programmes 
qui les engendre. C'est pourquoi nous preferons l'allocation a plat, qui tient un plus 
juste compte des objets reellement indispensables a l'execution. 
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Le socle du compilateur En generalisant la discussion ci-dessus, il apparait 
deux approches radicalement differentes de la compilation de Caml. L'une consiste a 
s'appuyer sur un modele d'execution integrant la pleine fonctionnalite (dans lequel les 
fonctions peuvent avoir des variables libres). Ce modele d'execution est souvent base 
sur une machine virtuelle pour l'execution du A-calcul. Les seules optimisations que 
le compilateur peut alors effectuer sont des transformations de programmes de haut 
niveau ; l'optimisation des fonctions elles-memes et de leur representation sous forme de 
fermetures est dimcilement exprimable. L'autre approche consiste a exposer beaucoup 
plus tot la representation des fonctions par des fermetures. On se ramene ainsi a un 
langage intermediaire de type langage algorithmique classique, souvent proche du 
langage C, sur lequel le compilateur peut appliquer de nombreuses optimisations de 
bas niveau. Cette derniere approche, quoique plus complexe, donne generalement de 
meilleurs resultats : les compilateurs obtenus par cette approche compilent bien ce qu'il 
est facile de bien compiler (appels a des fonctions connues, fonctions sans variables 
libres), ce qui represente une large part des programmes qu'on ecrit en Caml. Le 
principal ecueil qui menace cette approche est, a force d'ameliorer les cas simples, de 
trop negliger les cas compliques et d'aboutir a une compilation incorrecte de ces cas 
difficiles. 

L'auto-generation 

Quoi qu'il en soit, vous devez entrevoir maintenant les etapes principales d'une 
implementation complete de Caml en Caml: description de la syntaxe abstraite, de 
la syntaxe concrete, du typage, et enfin de la compilation. Ce mecanisme d'auto- 
description est general dans les systemes Caml : il sont tous autogenes, c'est-a-dire pro- 
duits par eux-memes. En effet, le compilateur est entierement ecrit en Caml, c'est done 
un programme Caml comme tous les autres, compilable par le compilateur Caml, c'est- 
a-dire par lui-meme. Ce mecanisme d'auto-amorgage ou d'auto-generation s'appelle 
bootstrap en anglais. 

L'auto-generation est un mecanisme etrange, puisqu'il s'agit d'une sorte de 
definition recursive au niveau de la specification executable du compilateur du lan- 
gage. On se demande bien par quel miracle il en sort un systeme Caml qui tourne. 
C'est simplement que la recursion s'arrete sur le compilateur «de niveau zero», le 
compilateur initial, qui est toujours ecrit dans un autre langage. Progressivement, 
certaines parties du compilateur initial sont reecrites dans le langage compilable par 
le compilateur, jusqu'a obtenir finalement un compilateur entierement ecrit dans le 
langage du compilateur : le langage est devenu autogene. 

Au-dela du tour de force qu'elle constitue, l'auto-generation est un gage de qualite 
pour un compilateur : le programme qui realise la compilation est forcement complexe 
et long, c'est un bon critere de savoir que le compilateur est capable de le compiler sans 
erreurs, en produisant un code acceptable en un temps raisonnable. C'est une etape 
majeure dans la validation d'un langage de programmation et de son implementation. 
Rappelons encore une fois que tous les systemes Caml sont autogenes. 

L'auto-generation d'un compilateur Caml serait done une belle aventure a raconter, 
« mais ceci est une autre histoire ...» 
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